1. INTRODUCCIÓN
⌅Este trabajo parte de una pregunta en principio muy sencilla: ¿podrían usarse Wikidata y Wikipedia como fuente para identificar un canon literario universal? El canon literario es entendido como una selección cultural fuertemente afectada por el punto de vista del grupo de poder que lo establece. Por lo tanto, está sometido a contestación desde las posiciones diferentes que han emergido desde periferias geográficas, identitarias y culturales, que buscan ampliar la visión del canon literario occidental popularizado por el crítico literario Harold Bloom, o el presente en los libros de texto escolares y en los programas de estudios superiores. Además, cualquier canon tomado como referencia, no es inmutable y está sujeto a un interminable proceso de atención, olvido y recuperación a lo largo de siglos, épocas y décadas. Al ser el canon una construcción cultural cambiante ¿Podría usarse la actividad autónoma y no planificada de la comunidad de editores de Wikidata y Wikipedia para obtener otro punto de vista complementario? Son comunidades implicadas en la redacción y categorización de artículos en todos los idiomas y en la definición de datos descriptivos de todo tipo. Apoyados en la idea del punto de vista neutral, trabajo descentralizado y multilingüe, el ecosistema Wikimedia podría ser un candidato para poder obtener resultados no mediados directamente por ningún autor, academia, nación o grupo de interés.
Los estudios sobre cobertura temática en Wikipedia han girado sobre diversos campos, como el de la ciencia, las biografías, patrimonio cultural, cultura de masas o la actualidad social (Hill y Shaw, 2020Hill, B., y Shaw, A. (2020). The Most Important Laboratory for Social Scientific and Computing Research in History. En J. Reagle y J. Koerner (eds.), Wikipedia @ 20: Stories of an Incomplete Revolution. The MIT Press. DOI: https://doi.org/10.7551/mitpress/12366.001.0001.; Reznik y Shatalov, 2016Reznik, I., y Shatalov, V. (2016). Hidden revolution of human priorities: An analysis of biographical data from Wikipedia. Journal of Informetrics, 10(1), 124-131. DOI: https://doi.org/10.1016/j.joi.2015.12.002.; Minguillón y otros, 2017Minguillón, J., Lerga, M., Aibar, E., Lladós-Masllorens, J., y Meseguer-Artola, A. (2017). Semi-automatic generation of a corpus of Wikipedia articles on science and technology. El Profesional de la Información, 26(5), 995-1004. DOI: https://doi.org/10.3145/epi.2017.sep.20.). Sin embargo, no existe una buena y amplia panorámica de la participación de Wikipedia en el conocimiento de las obras literarias o de las obras impresas. Es un terreno cubierto tradicionalmente por los catálogos de biblioteca, las obras de referencia de historia de la literatura y el libro, las revistas de crítica literaria u orientación lectora, o los repertorios bibliográficos. Además, desde la puesta en marcha en 2012 de Wikidata se dispone de una infraestructura para almacenar de forma estructurada los datos estructurados sobre artículos de Wikipedia. Existe un activo movimiento interesado en establecer los procedimientos para usar Wikidata también como base de datos bibliográfica multipropósito: referencias en la propia Wikipedia, análisis bibliométrico, repertorio universal, etc. En definitiva: se percibe un creciente interés e interrelación entre el universo del libro y los proyectos Wikimedia.
Considerando lo anterior se plantea como hipótesis que Wikipedia y Wikidata pueden utilizarse de forma conjunta como fuentes de datos para construir un canon literario. En consecuencia, este trabajo establece una serie de objetivos y una metodología de trabajo para determinar los datos necesarios que deben extraerse, los procesos para realizar tal extracción y el modo en el que deben utilizarse para definir un indicador que permita identificar y ponderar aquellas obras que deben formar parte de dicho canon.
2. DATOS ENCICLOPÉDICOS COLABORATIVOS SOBRE LOS LIBROS Y EL CANON LITERARIO
⌅La omnipresencia de Wikipedia como fuente de información multidominio es un lugar común en los estudios sobre producción colaborativa de contenido (Reagle y Koerner, 2020Reagle, J., y Koerner, J. (eds.). (2020). Wikipedia @ 20: Stories of an Incomplete Revolution. The MIT Press. DOI: https://doi.org/10.7551/mitpress/12366.001.0001.) y sobre prácticas de uso de información digital. Wikipedia ha alcanzado un altísimo grado de notoriedad y presencia en nuestra vida cotidiana. La enciclopedia online es relevante no solo por su volumen de contenido generalista y local, sino por el lugar que ocupa en las prácticas cotidianas de uso de la red para obtener información, incluido su uso inadvertido como componente de las respuestas que nos proporcionan buscadores y asistentes (Haider y Sundin, 2019Haider, J., y Sundin, O. (2019). Invisible Search and Online Search Engines: The Ubiquity of Search in Everyday Life (1.a ed.). Routledge. DOI: https://doi.org/10.4324/9780429448546.).
Una importante cantidad del contenido de Wikipedia está dedicado a los objetos culturales y su contexto: monumentos, cuadros, teatro, autores, discos, libros, películas, esculturas, etc. Sobre este contenido se ha identificado un marcado componente local, puesto que cada comunidad cultural tiene un acervo diferente, vinculado al idioma o el territorio (Miquel-Ribé y Laniado, 2018Miquel-Ribé, M., y Laniado, D. (2018). Wikipedia Culture Gap: Quantifying Content Imbalances Across 40 Language Editions. Frontiers in Physics, 6, Article 54. DOI: https://doi.org/10.3389/fphy.2018.00054.). Los autores lo denominan Cultural Context Content y lo calculan en un 25% en las principales enciclopedias. El proyecto Wikipedia Diversity Observatory indica, en su apartado Topical coverage, que entre el 1-2% de los artículos de las principales Wikipedias corresponden al tema genérico de “libros”1 https://wdo.wmcloud.org/topical_coverage . En este marco, Wikipedia es una fuente relevante de información y recomendación sobre obras literarias, teniendo en cuenta además que no se ofrece un discurso único, puesto que cada comunidad idiomática elabora los artículos sobre obras literarias incorporando sus propias diferencias culturales (Jemielniak y Wilamowski, 2017Jemielniak, D., y Wilamowski, M. (2017). Cultural diversity of quality of information on Wikipedias. Journal of the Association for Information Science and Technology, 68(10), 2460-2470. DOI: https://doi.org/10.1002/asi.23901.). Pese al excepcional tamaño de la Wikipedia en inglés, y que a menudo se la contempla como una “catch-all encyclopedia”, existen considerables brechas de contenido entre ediciones, especialmente en los contenidos de carácter local (Miquel-Ribé, 2019Miquel-Ribé, M. (2019). The Sum of Human Knowledge? Not in One Wikipedia Language Edition. Wikipedia@20. Disponible en: https://wikipedia20.mitpress.mit.edu/pub/26ke5md7/release/15.). Muchas de las grandes obras literarias y del pensamiento, que forman parte del canon cultural y las tradiciones históricas, han merecido la elaboración de detallados artículos enciclopédicos. Antes de adentrarse en el tratamiento que reciben las obras literarias en Wikipedia, conviene señalar que Wikipedia no es un mero catálogo de referencias de libros, sino que los que aparecen deben ser entidades “notables” con una relevancia enciclopédica suficiente.
Wikipedia tiene una clara tendencia a prestar mayor atención a los fenómenos de la cultura de masas y a su constante producción de novedades. Esto se refleja, para el caso de los libros, en una importante atención a las obras literarias notables recientes y no solo a la literatura clásica y consagrada, a la que en este trabajo denominamos “canon literario universal”. Los artículos sobre libros en Wikipedia presentan una gran variabilidad en extensión y tratamiento. Suelen incluir un resumen breve del argumento, explicar las condiciones de escritura y edición, hablar de los personajes, estilo, técnica literaria y repercusión en la época. También suelen contener una ficha descriptiva (infobox) que presenta sus datos bibliográficos esenciales, enlaces a bibliotecas digitales para acceder al texto completo de las obras de dominio público y un sistema de categorización.
En el contexto del canon literario es posible observar que existe una mayor cobertura de los autores frente a las obras. Los estudios sobre personas son un enfoque frecuente en investigaciones sobre Wikipedia desde la óptica del análisis de redes (Hube y otros, 2017Hube, C., Fischer, F., Jäschke, R., Lauer, G., y Thomsen, M. R. (2017). World Literature According to Wikipedia: Introduction to a DBpedia-Based Framework. arXiv. Disponible en: http://arxiv.org/abs/1701.00991.). Sin embargo, no siempre hay un artículo específico en Wikipedia sobre cada una de las obras de estos grandes autores, aunque sí sea frecuente encontrar información básica (normalmente una lista enumerativa) sobre sus obras principales. También es posible encontrar artículos sobre los propios universos de ficción: personajes, objetos y lugares de ficción.
Los artículos de la enciclopedia corresponden habitualmente al nivel abstracto de Obra (Work) conforme a la conceptualización del modelo de referencia bibliotecario LRM-FRBR. La correcta modelización de los niveles Obra-Expresión-Manifestación es una tarea que interesa a la comunidad bibliotecaria implicada en los datos abiertos y enlazados (Lemus-Rojas y Pintscher, 2018Lemus-Rojas, M., y Pintscher, L. (2018). Wikidata and Libraries: Facilitating Open Knowledge. En M. Proffitt (ed.), Leveraging Wikipedia: Connecting Communities of Knowledge, 143-158. IL: ALA Editions. Disponible en: https://scholarworks.iupui.edu/handle/1805/16690.), para que Wikipedia y Wikidata sean un espacio de información bibliográfica más preciso. Por otra parte, la propia definición de qué es una obra literaria es un concepto abierto. En un sentido muy amplio e histórico se entiende como “belles-lettres”, incluyendo el ensayo y las obras de pensamiento, y en un sentido más moderno como la ficción creativa (Damrosch, 2009: 6Damrosch, D. (2009). How to read world literature. Wiley-Blackwell.). Aunque cada artículo en cada enciclopedia es un contenido individual, editado y revisado por su propia comunidad de editores, a través de la base de conocimiento Wikidata se encuentran interconectados, de forma que existe una única entidad para representar una obra y vincularla con los artículos en los idiomas en los que exista.
La relación entre Wikipedia y el canon literario no ha sido estudiada específicamente. Se encuadra en las líneas de estudios sobre la literatura en los que se pone el foco en el “sistema literario”, o “campo literario” siguiendo la terminología de Bourdieu (1995)Bourdieu, P. (1995). The Rules of Art: Genesis and Structure of the Literary Field. Stanford University Press., y que busca conocer más su impacto y recepción a lo largo del tiempo, y menos su calidad literaria intrínseca. El estudio de las reseñas y críticas publicadas en revistas y suplementos literarios, la presencia de autores y obras en monografías, diccionarios y enciclopedias literarias es una de las metodologías usadas para estudiar el campo literario. Por otra parte, la corriente de estudios “Distant reading” (Moretti, 2013Moretti, F. (2013). Distant reading. Verso.), aborda el estudio de la literatura ampliando el conjunto de fuentes y datos habituales. De esta forma se aprovecha la accesibilidad a la mayor parte de la producción literaria de los últimos siglos, permitiendo el procesamiento de grandes volúmenes de datos de la actividad literaria, incluyendo el análisis informatizado de los propios textos completos. En este sentido, Wikipedia y sus artículos, en cada uno de los idiomas en los que se despliega, es una fuente de datos amplia, dinámica. La exploración de nuevas fuentes interesantes es de interés como punto de partida para definir y comprender las dimensiones de un canon, así como los criterios para estudiarlo (Algee-Hewitt y otros, Algee-Heweitt, M., Allison, S., Gemma, M., Heuser, R., y Moretti, F. (2018). Canon/archivo: dinámicas de largo alcance y campo literario. En F. Moretti (Ed.), Literatura en el laboratorio: canon, archivo y crítica literaria en la era digital, 131-181. Gedisa.2018). En el caso de Wikipedia, contamos además con un espacio de un tamaño muy amplio, pero claramente delimitado y, sobre todo, marcado y codificado con claridad, en formatos fácilmente procesables y con APIs y sistemas de consulta parametrizados, en especial al contar con la información estructurada en Wikidata.
El conglomerado de más de 250 Wikipedias en distintos idiomas está alineado con el campo de estudio de la “World literature” (Damrosch, 2009Damrosch, D. (2009). How to read world literature. Wiley-Blackwell.). Esto permite ampliar el foco desde un canon occidental con fuertes sesgos, hacia otro más amplio y global. También permite ir más allá del “translated canon”, en donde existe un sesgo muy fuerte hacia las lenguas con grandes mercados editoriales, como el inglés, francés o el español, etc. (Venuti, 2008Venuti, L. (2008). Translation, interpretation, canon formation. En A. Lianeri y V. Zajko (eds.), Translation and the Classic: Identity as Change in the History of Culture, 27-51. Oxford University Press. DOI: https://doi.org/10.1093/acprof:oso/9780199288076.001.0001.). Como hemos mencionado anteriormente, los estudios sobre Wikipedia son conscientes del “culture gap” entre ediciones para contenidos locales y culturales (Miquel-Ribé y Laniado, 2021Miquel-Ribé, M., y Laniado, D. (2021). The Wikipedia Diversity Observatory: helping communities to bridge content gaps through interactive interfaces. Journal of Internet Services and Applications, 12(1), 10. DOI: https://doi.org/10.1186/s13174-021-00141-y.). Por lo tanto, para explorar el canon global y en cada idioma, de acuerdo con Wikipedia, será necesario partir de las ediciones en cada idioma para obtener datos que reflejen su verdadera naturaleza de fuente diversa.
Cada edición Wikipedia para cada idioma funciona de forma independiente, representando las elecciones de sus editores y su contexto. Sin embargo, Wikidata es una base de datos común, producida al mismo tiempo por editores en todos los idiomas. Es un único proyecto cuyo objetivo es la creación es un grafo de conocimiento producido colaborativamente por editores de cualquier idioma. Wikidata tiene un alcance universal, y modela los diferentes ámbitos del conocimiento mediante la creación colaborativa y supervisada de propiedades. Integra tanto los datos sobre las instancias (Charles Chaplin; Estadio Azteca; Monte Everest), como las propiedades para establecer relaciones y recoger datos (Fecha de nacimiento; Aforo; Coordenadas), como las clases, subclases y el vocabulario controlado para describirlas (Actor; Estadio de fútbol; Montaña). Con respecto al libro, existe un wikiproyecto en el que se acuerdan metadatos y pautas de descripción y otros aspectos de interés para su descripción2 https://www.wikidata.org/wiki/Wikidata:WikiProject_Books .
Se han realizado numerosas propuestas para la evaluación automática de aspectos de calidad de los contenidos de Wikipedia basados en métodos cuantitativos, que constituyen por sí mismas un subcampo de estudio sobre Wikipedia (Nielsen, 2019Nielsen, F. Å. (2019). Wikipedia research and tools: Review and comments. Disponible en: http://www2.imm.dtu.dk/pubdb/edoc/imm6012.pdf.). Unos explotan las métricas del análisis de redes, usando los enlaces entre artículos y el grafo resultante. Otros usan las métricas propias disponibles para el contenido de los artículos: número de palabras, número de referencias, extensión, enlaces entrantes, etc., complementados con el estudio de la actividad de los editores, reputación y redes de colaboración. Del mismo modo sucede en Wikidata, con investigaciones para establecer la calidad y completitud de los datos (Shenoy y otros, 2022Shenoy, K., Ilievski, F., Garijo, D., Schwabe, D., y Szekely, P. (2022). A study of the quality of Wikidata. Journal of Web Semantics, 72, 100679. DOI: https://doi.org/10.1016/j.websem.2021.100679.). Las métricas automáticas sirven de medición indirecta de la “calidad esperada” o probabilidad de calidad, en realidad, credibilidad (Claes y Tramullas, 2021Claes, F., y Tramullas, J. (2021). Estudios sobre la credibilidad de Wikipedia: una revisión. Área Abierta, 21(2), 187-204. DOI: https://doi.org/10.5209/arab.74050.). Se trata de un campo que genera investigación aplicada, uno de cuyos casos, el sitio web WikiRank3 https://wikirank.net ilustra con claridad la posibilidad de establecer rankings de artículos segmentados por tipos de contenido, mediante indicadores agregados que denominan “popularity”, “Authors’ Interest” (AI) y “Citation Index” (Lewoniewski y otros, 2019Lewoniewski, W., Węcel, K., y Abramowicz, W. (2019). Multilingual Ranking of Wikipedia Articles with Quality and Popularity Assessment in Different Topics. Computers, 8(3), 60. DOI: https://doi.org/10.3390/computers8030060.). El trabajo más conocido sobre ranking es el de Skiena y Ward (2014)Skiena, S. S., y Ward, C. (2014). Who’s bigger? where historical figures really rank. Cambridge University Press.en el que se comparan personajes históricos diferenciando entre celebrity (popularidad actual) y gravitas (popularidad consolidada).
3. OBJETIVOS Y METODOLOGÍA
⌅Wikidata es un grafo de conocimiento que utiliza su propio modelo de datos compatible con RDF. Sus elementos principales son ítems con un identificador único cuya designación comienza por la letra “Q”. Por ejemplo, el libro “Cien años de soledad” de Gabriel García Márquez es el elemento Q178869, aunque está vinculado a 74 artículos en diferentes Wikipedias (español, japonés, italiano, ruso, etc.). A su vez, cada ítem se describe mediante propiedades cuyas designaciones comienzan por la letra “P”. Las propiedades definen relaciones entre elementos o se refieren a valores literales (cadenas, números, fechas). Por ejemplo, del libro mencionando se declara que tiene como autor (P51) al elemento Q5878 (el escritor García Márquez) y que su fecha de publicación (P577) es 1967. Wikidata no tiene clases definidas explícitamente diferenciadas del resto de los elementos. En cambio, algunos elementos desempeñan tal papel de clase al enmarcarse en una taxonomía de clases y subclases conectadas a través de la propiedad P279 (subclase de). La pertenencia de los ítems a las clases se realiza mediante la propiedad P31 (instancia de). Esta circunstancia permite, hasta cierto punto, entender a Wikidata como una “ontología colaborativa”, que no solo contiene datos primarios, sino una suerte de esquema formalizado de organización del conocimiento (Piscopo y Simperl, 2018Piscopo, A., y Simperl, E. (2018). Who Models the World? Collaborative Ontology Creation and User Roles in Wikidata. Proceedings of the ACM on Human-Computer Interaction, 2, 1-18. DOI: https://doi.org/10.1145/3274410.). Dentro de cada ítem existe una sección denominada “Identificadores”, que definen conexiones con registros y bases de datos externas de todo tipo, como, por ejemplo, con el sistema internacional de control de autoridades VIAF (Bianchini y Sardo, 2022Bianchini, C., y Sardo, L. (2022). Wikidata : a new perspective towards universal bibliographic control. JLIS, 13(1). DOI: https://doi.org/10.4403/jlis.it-12725.).
A partir de las consideraciones hasta ahora expuestas, se propone reutilizar aquellos datos disponibles, tanto en los contenidos enciclopédicos de Wikipedia como en la base de conocimiento estructurado de Wikidata, para construir un procedimiento que permita definir un canon literario. Por lo tanto, para demostrar la hipótesis planteada en la introducción del trabajo, se establecen los siguientes objetivos generales:
-
Identificar el conjunto de datos enciclopédicos relativos a obras literarias de todas las épocas en cualquier idioma.
-
Validar un procedimiento analítico automático para establecer agrupaciones y ranking de obras literarias con cobertura en cualquiera de las diferentes ediciones de Wikipedia.
-
Identificar medidas representativas del impacto de cada obra literaria en el ecosistema Wikimedia.
-
Analizar la distribución temporal de las obras del canon literario desde el punto de vista de su publicación o, en su defecto, creación.
El método para obtener el conjunto de datos se ha desarrollado en cuatro fases:
-
Primera etapa: Determinación del ítem que desempeñaría el papel de clase a partir de la cual recuperar los ítems de las obras literarias.
-
Segunda etapa: Construcción de un conjunto de datos.
-
Tercera etapa: Agregación de ciertos datos del conjunto de datos.
-
Cuarta etapa: Análisis de los resultados de agregación.
Tanto el conjunto de datos obtenido, los datos agregados, como los scripts en Python y Orange Data Mining están disponibles para su consulta y reutilización pública4 https://github.com/j-pastor/wd-literary-canon .
En la primera etapa se tomó el ítem “Obra literaria” (Q7725634) como clase de partida para la exploración de Wikidata. De este modo se recuperan aquellos ítems relacionados con dicha clase mediante la propiedad P31 (Instancia de). La taxonomía de clases usada para el universo bibliográfico es amplia y con significativas imprecisiones en sus jerarquías y aplicación. Se recuperaron tan solo los elementos con asignación directa a esta clase. Se tomó la decisión de no considerar las taxonomías derivadas de los elementos Q471 (libro) ni Q47461344 (Obra escrita), aunque son usadas para instanciar un número considerable de ítems del campo literario, para minimizar el riesgo de recuperar resultados alejados del foco del trabajo, que habrían requerido procedimientos muy minuciosos de validación.
En la segunda etapa se construyó el conjunto de datos. Solo se recuperaron los elementos sobre obras literarias que tienen un artículo escrito sobre ella en alguna Wikipedia de cualquier idioma. Este criterio de relevancia o notabilidad permitió extraer información solo de obras en las que se identifica un esfuerzo editorial y no únicamente la existencia de meros datos en Wikidata. Dada la estrecha interrelación entre ambos proyectos, enciclopedias y base de conocimiento, la mayor parte de los ítems de Wikidata también pertenecen a alguna Wikipedia.
Se utilizaron consultas SPARQL en Wikidata Query Service (WDQS) que permitieron obtener:
-
Identificadores de todos los ítems definidos como instancias del ítem “Obra literaria” (Q7725634) con una o varias correspondencias en ediciones de Wikipedia, así como una lista de todas las propiedades y declaraciones utilizadas para la descripción de cada uno de dichos ítems. Este trabajo, utiliza la denominación “obra literaria” para referirse a cada uno de los ítems recuperados.
-
Los idiomas en los que se escribieron las obras literarias recuperadas.
-
URL de los artículos en Wikipedias de diferentes idiomas de los ítems recuperados. La denominación “sitelink” se refiere a cada una de dichas referencias.
-
La fecha de publicación o concepción de las obras.
-
El título identificativo de cada obra en español e inglés y, en su defecto, en el idioma original.
-
Un listado completo de todas las propiedades de Wikidata, distinguiendo aquellas utilizadas en la sección de identificadores (propiedades ID).
Además de WDQS se ha utilizado el servicio Xtools de Wikimedia5 https://xtools.wmflabs.org consultado desde scripts Python para automatizar las consultas. Mediante la correspondiente API de este servicio se recuperó información estadística sobre la estructura de cada uno de los artículos correspondientes a los ítems recuperados. Así pues, de cada artículo de Wikipedia, se han obtenido los datos correspondientes al número de palabras, referencias, número de ediciones, fechas de creación y modificación, enlaces externos, etc.
Fue necesario realizar un proceso de consolidación de datos. Por ejemplo, no todos los ítems recuperados incluían declaraciones explícitas relativas al idioma de la obra (P407) o la fecha de publicación (P577). Sin embargo, en algunos casos, esta información se ha podido obtener extrayendo el idioma en el que se encuentra el título original de la obra (P1476) y la fecha de concepción de ésta (P571). En el conjunto de datos final se indican las propiedades utilizadas para obtener estos datos.
En la tercera etapa se procedió al procesamiento del conjunto de datos para obtener resultados con datos más agregados. Se desarrolló un script en Python para la agregación y la obtención de medidas estadísticas.
Para los ítems de cada obra se agregaron los siguientes datos a partir del conjunto de datos previamente generado:
-
Identificador “Q” en Wikidata, en el espacio de nombres o prefijo “wd:”.
-
Idioma original de la obra.
-
Etiqueta o título identificativo de la obra.
-
Fecha de publicación o concepción de la obra.
-
Número total de Wikipedias en las que el ítem tiene presencia con su correspondiente artículo (NWikis).
-
Número total de declaraciones: en este caso se ha distinguido entre propiedades ID y el resto de las propiedades utilizadas en las declaraciones (NProps).
-
Número total de palabras utilizadas en todos los artículos correspondientes al ítem en las diferentes Wikipedias (NWords), calculado a partir de los datos recuperados de Xtools.
De igual forma, para cada idioma se agregaron o calcularon los siguientes datos:
-
Código estándar de identificación del idioma. Se han agrupado las diferentes variaciones regionales de un mismo idioma.
-
Número de ítems recuperados de las obras escritas en ese idioma.
-
Media aritmética del número de Wikipedias en las que tienen presencia los ítems de las obras del idioma en cuestión.
-
Media aritmética del número de declaraciones con propiedades no ID.
-
Media aritmética del número de palabras de los artículos en Wikipedia correspondientes al ítem de la obra.
Para finalizar esta etapa se procedió a generar una matriz de idiomas/Wikipedias que representa el número de artículos sobre obras literarias de un determinado idioma que tiene presencia en cada una de las diferentes ediciones de Wikipedia. No obstante, estos datos no se han explotado en este trabajo.
En la cuarta etapa se analizaron los datos obtenidos mediante la herramienta Orange Data Mining6 https://orangedatamining.com . Dicho análisis comenzó con la representación de la distribución normalizada de los ítems de cada obra en función de los valores de NWikis, NProps y NWords. Se realizó un clustering de los ítems mediante el método K-means (Hartigan y Wong, 1979Hartigan, J. A., y Wong, M. A. (1979). Algorithm AS 136: A K-Means Clustering Algorithm. Journal of the Royal Statistical Society, 28(1), 100. DOI: https://doi.org/10.2307/2346830.;Arthur y Vassilvitskii, 2007Arthur, D., y Vassilvitskii, S. (2007). K-means++: the advantages of careful seeding. Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, 1027-1035.). El número de clústeres se determinó mediante la puntuación obtenida a través del método Silhouette (Rousseeuw, 1987Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65. DOI: https://doi.org/10.1016/0377-0427(87)90125-7.).
Tras analizar los resultados obtenidos y estudiar la distribución de NWikis, NProps y NWords se procedió a calcular un indicador que combinara las tres variables. Este indicador, denominado Wiki3DRank, permitiría ordenar los ítems de las obras literarias con una distribución normalizada que considerara los tres factores establecidos en los objetivos de la investigación: presencia en Wikipedias, profundidad de descripción en Wikidata y extensión de los artículos en Wikipedia. Una vez hecho esto se comprobó que los resultados de Wiki3DRank eran coherentes con los obtenidos en el proceso de clustering.
4. RESULTADOS
⌅En primer lugar, se presentan los datos relativos a la pregunta planteada de cuáles y cuántos podrían ser, según la actividad de las comunidades Wikimedia, las obras literarias que compondrían un canon universal, delimitando un subconjunto de entre las obras literarias recuperadas para nuestro dataset. En segundo lugar, se analizan aspectos sobre las literaturas en cada idioma. En tercer lugar, se realiza una presentación de la distribución temporal de las obras del canon.
4.1 Canon literario universal a partir de los datos de Wikipedia: difusión y esfuerzo editorial
⌅Este trabajo establece la presencia de un artículo sobre la obra literaria en alguna Wikipedia como condición indispensable para considerar un ítem relevante. Por lo tanto, el dataset resultante incluye un total de 107.434 ítems de Wikidata7 Se hace preciso indicar que una primera versión del dataset para este trabajo, obtenido el 20 de noviembre de 2021, únicamente incluía 89.744 ítems., definidos como instancias (P31) de la ítem-clase “Obra literaria” (Q7725634). Sin considerar dicha condición de vinculación el total de ítems asciende a 192.236. Esto implica que se descartaron más de un 44% de ítems que pueden considerarse como meros “registros de catálogo” y no entidades con la suficiente relevancia o notabilidad para requerir un artículo enciclopédico explicativo. Este hecho señala cierta tendencia a usar Wikidata como base de datos bibliográfica de propósito general, como WikiCite.
Se ha considerado la distribución de los ítems de las obras literarias en función del número de Wikipedias en las que aparece (NWikis) el número de declaraciones en Wikidata (NProps) y el total del número de palabras de sus artículos en la enciclopedia (NWords). En la Tabla Ise detallan algunos indicadores estadísticos para cada variable. La mayor dispersión de valores (Cv) se da para NWords y NWikis. Las tres variables tienen una distribución con una fuerte asimetría positiva (Coeficiente de Asimetría de Fisher) y un alto grado de curtosis. Gran parte de los ítems del conjunto de datos tienen valores bajos en cada una de las variables, que señala a una gran bolsa de obras literarias con una baja presencia en Wikipedias, menor profundidad en la descripción y artículos más breves.
Variable | Media | Mediana | Cv | Mínimo | Máximo | Asimetría | Curtosis |
---|---|---|---|---|---|---|---|
NWikis | 1,964 | 1 | 2,026 | 1 | 140 | 11,248 | 191,148 |
NProps | 5,946 | 5 | 0,756 | 1 | 276 | 8,942 | 294,509 |
NWords | 849,19 | 198 | 4,006 | 0 | 168.391 | 18,453 | 537,757 |
El análisis de la correlación entre las tres variables (Tabla II) refleja una correlación entre NWikis y NWords. Esto es obvio: a mayor número de ediciones de Wikipedia en las que un ítem de Wikidata tiene un artículo equivalente, mayor es el número total de palabras del conjunto de dichos artículos. Este análisis también refleja que la menor correlación se produce entre NProps y NWords, es decir entre la descripción y el artículo, entre datos y texto.
Pearson | NWikis | NProps | NWords | Spearman | NWikis | NProps | NWords |
---|---|---|---|---|---|---|---|
NWikis | - | 0,529 | 0,839 | NWikis | - | 0,334 | 0,412 |
NProps | 0,529 | - | 0,494 | NProps | 0,334 | - | 0,236 |
NWords | 0,839 | 0,494 | - | NWords | 0,412 | 0,236 | - |
Pese lo anterior, existen otros ítems cuyos valores para alguna de las variables (e incluso las tres) están por encima del resto. Estos datos permitirían verificar la hipótesis de este trabajo, puesto que los ítems con valores más altos que el resto permitirían identificar las obras que destacan y que podrían formar parte del canon literario. Es decir, los ítems de las obras que forman parte del canon literario tendrían una mayor presencia en diferentes ediciones de Wikipedia, un mayor nivel de descripción en Wikidata y un mayor grado de elaboración de los artículos respecto al resto de obras.
¿Qué número de obras compondría ese grupo selecto de obras universales muy destacadas? Se utilizó el algoritmo K-means++ para agrupar los ítems en clústeres que permitieran identificar las obras de un posible canon literario. Los resultados del método Silhoutte indicaban la posibilidad de usar K-means++ para obtener dos o tres clústeres. La aplicación de K-Means++ con dos clústeres identificó 1.008 ítems. Esta cifra podría resultar excesiva para la idea de un canon literario como lista de obras abarcable de forma fácil para una persona o “para llevarse a una isla desierta”, aunque quizá no tanto para hacer un inventario selecto de la cultura escrita universal desde hace más de tres milenios. Por este motivo se amplió la aplicación de K-means, realizando los correspondientes cálculos hasta con siete clústeres.
En función del tamaño del clúster superior para cada iteración de K-means++, se evaluó el nivel de coincidencia con NWikis, NProps y NWords. La variable con mayor ratio de coincidencia es NWords. Sin embargo, el conjunto de los ítems de las obras que debían formar parte del canon era diferente en función de la variable utilizada. Por este motivo se procedió a reducir la dimensionalidad utilizando dos métodos. El primero de ellos fue el método PCA (Ding y He, 2004Ding, C., y He, X. (2004). K-means clustering via principal component analysis. Twenty-First International Conference on Machine Learning - ICML ’04, 29. DOI: https://doi.org/10.1145/1015330.1015408.) calculado a partir NProps y NWords puesto que son las variables con menor correlación. También se ha definido y calculado un indicador, al que se ha denominado Wiki3DRank, como la agregación de la transformación logarítmica de cada una de estas variables (Shatnawi, 2015Shatnawi, R. (2015). Deriving metrics thresholds using log transformation. Journal of Software: Evolution and Process, 27(2), 95-113. DOI: https://doi.org/10.1002/smr.1702.). Para cada ítem Wiki3DRank se calcularía como:
Esta ecuación, cuyo cálculo es muy sencillo, integra NWikis, NProps y NWords en un único indicador con una distribución relativamente normalizada (Tabla III).
Variable | Media | Mediana | Cv | Mínimo | Máximo | Asimetría | Curtosis |
---|---|---|---|---|---|---|---|
Wiki3DRank | 7,556 | 7,745 | 0,365 | 1,386 | 21,874 | -0,014 | 0,610 |
En cada iteración n de K-means++, se estimó la coincidencia entre el conjunto de ítems del clúster Cn (clúster superior) y el subconjunto delimitado entre el intervalo [1, Sn] de cada uno de los rankings establecidos por NWikis, NProps, NWords, PCA y Wiki3DRank. En función del número de elementos coincidentes y el tamaño del clúster superior (Sn) se calculó una ratio de coincidencia (ver Tabla IV). Wiki3DRank alcanza las mayores ratios de coincidencia en cualquier iteración, siendo el más alto el correspondiente a la iteración con tres clústeres. También puede observarse que de las tres componentes que definen un ítem, NWords es más representativa que NWikis o NPropsrespecto a la coincidencia con los resultados de K-means++.
Sn | Silhoutte | Ratio de coincidencia | ||||
---|---|---|---|---|---|---|
NWikis | NProps | NWords | PCA | Wiki3DRank | ||
1.008 | 0,909 | 0,869 (876) | 0,499 (503) | 0,802 (808) | 0,882 (889) | 0,927 (934) |
163 | 0,827 | 0,822 (134) | 0,595 (97) | 0,822 (134) | 0,822 (134) | 0,939 (153) |
152 | 0,493 | 0,822 (125) | 0,559 (85) | 0,849 (129) | 0,822 (125) | 0,934 (142) |
74 | 0,499 | 0,676 (50) | 0,608 (45) | 0,824 (61) | 0,676 (50) | 0,919 (68) |
65 | 0,493 | 0,615 (40) | 0,600 (39) | 0,846 (55) | 0,615 (40) | 0,908 (59) |
36 | 0,457 | 0,472 (17) | 0,556 (20) | 0,750 (27) | 0,472 (17) | 0,833 (30) |
Considerando estos datos, se ha optado por usar K-means++ para obtener tres clústeres. El tamaño de C1 es de 105.100 ítems, C2 (al que denominamos clúster secundario) contiene 2.171 ítems y C3 (clúster principal) incluye 163 obras. En consecuencia, podría interpretarse que el clúster principal contiene los ítems de aquellas obras candidatas a ser consideradas Canon Literario Universal. C1 podría denominarse “producción bibliográfica”, un vasto conjunto de libros y obras con mayor o menor fortuna, de impacto más local y atención escasa. El clúster secundario C2 lo forma un conjunto, relativamente abarcable, de obras que representan en cierto modo la clase media de la literatura: obras con notoriedad en un conjunto de idiomas y con niveles de atención enciclopédica variables. En la Figura 1 se visualizan claramente los tres clústeres. Cada obra literaria se representa en un diagrama de dispersión con respecto a los ejes NWords y NProps, mientras que el tamaño de cada elemento se determina mediante NWikis.
A modo de ejemplo, se muestran los datos de una obra de cada clúster en la Tabla V:
Ítem | Título | Clúster | Wiki3DRank | NWikis | NProps | NWords |
---|---|---|---|---|---|---|
Q8275 | Ilíada | C3 | 21,5304 | 132 | 113 | 147.831 |
Q220331 | Ben-Hur | C2 | 17,0640 | 28 | 27 | 31.712 |
Q27223 | Babel-17 | C1 | 13,3556 | 11 | 10 | 4.782 |
Además de la agrupación en clústeres, la métrica Wiki3DRank ofrece un valor para operaciones de selección y ordenación. De este modo es posible ordenar los ítems del conjunto de datos, independientemente del clúster al que pertenezcan y dentro de él. La Figura 2 representa una selección de las cincuenta primeras obras de C3. En el anexo final es posible consultar un listado completo de las obras de este clúster de “clásicos universales de todos los tiempos”.
En las primeras posiciones de C3 encontramos obras fácilmente reconocibles como: El Génesis, La Ilíada, Hamlet, Romeo y Julieta, Don Quijote de la Mancha, Shahnameh, Ulises, Harry Potter y la piedra filosofal, Alicia en el país de las maravillas, Lolita, Macbeth, Orgullo y prejuicio, etc. Aplicando estas mismas métricas se puede extraer el canon literario escrito en cualquier idioma, como, por ejemplo, la tabla VI recoge las diez primeras obras de todos los tiempos escritas en italiano.
Item | Title | Cluster | Wiki3DRank | NWikis | NProps | NWords |
---|---|---|---|---|---|---|
Q16438 | The Decameron | C3 | 8,583 | 64 | 89 | 65521 |
Q8065468 | The Adventures of Pinocchio | C3 | 8,151 | 67 | 49 | 41696 |
Q172850 | The Name of the Rose | C3 | 8,123 | 53 | 41 | 58536 |
Q131719 | The Prince | C3 | 8,081 | 72 | 19 | 82696 |
Q48922 | Orlando Furioso | C3 | 7,971 | 35 | 34 | 74398 |
Q1053313 | Jerusalem Delivered | C2 | 7,681 | 32 | 35 | 40388 |
Q808428 | Gospel of Barnabas | C3 | 7,356 | 34 | 10 | 59060 |
Q1645493 | Lives of the Most Excellent Painters, Sculptors, and Architects | C2 | 7,165 | 31 | 23 | 19048 |
Q914235 | Hypnerotomachia Poliphili | C2 | 7,069 | 24 | 16 | 27636 |
Q641651 | Six Characters in Search of an Author | C2 | 8,583 | 64 | 89 | 65521 |
4.2 La literatura clásica y actual: cánones literarios locales y el peso de la tradición
⌅Los datos disponibles permiten abordar diferentes facetas de los estudios de los fenómenos culturales, como la perduración de ciertas obras a lo largo del tiempo, la representación equilibrada de los diferentes idiomas o la permeabilidad del canon global y los cánones en cada idioma entre diferentes ámbitos lingüísticos. En este trabajo presentamos tan solo los datos básicos de la distribución por idiomas del canon considerado global y analizamos con algo más de detalle su distribución temporal según la fecha de producción o publicación.
La faceta idiomática se abordó desde dos vertientes: el idioma de las obras y las ediciones de Wikipedia en las que estaban presentes. El idioma de cada obra se determinó con dos mecanismos: de forma expresa mediante la propiedad P407 o (en algunos casos) extrayendo el idioma del título original. Para la literatura en cada idioma se contabilizó el número de obras y se calcularon los valores medios de NProps y NWords. En la Figura 3 puede observarse la dispersión de cada idioma en función de las medias de NProps y NWords. El tamaño de los elementos se define en función del total de obras de cada idioma según dichas medias. Esta primera aproximación permite observar el cuidado puesto en el contenido enciclopédico para cada literatura; las obras en inglés son mayoritarias y además con un alto grado de descripción. También puede observarse un elemento con la etiqueta “<none>” referido a aquellas obras en cuyos ítems de Wikidata no existen datos de idioma. Estas obras son numerosas (39.465) pero como puede verse sus ítems de Wikidata tienen un bajo nivel tanto de descripción como de edición de sus correspondientes artículos en las diferentes ediciones Wikipedia. Del resto de idiomas destacan el español, francés, japonés, ruso y alemán. Cabe destacar el caso del latín, sánscrito y griego clásico con un bajo volumen de obras, pero con numerosas declaraciones descriptivas y con artículos extensos en las distintas ediciones de Wikipedia.
En relación con la fecha de las obras literarias seleccionadas, los datos obtenidos permiten trazar un panorama sobre la época a la que pertenecen las obras que forman parte del canon literario universal o local. A partir de los datos obtenidos podemos analizar la distribución temporal de las obras. Es necesario señalar que para un gran número de ítems de obras no se dispone de información sobre la fecha de publicación o de creación. Únicamente 61.702 ítems (algo más de un 57%) incluyen alguna propiedad para obtener esta información. La mayoría de los datos se obtuvieron a partir de la propiedad P577 (fecha de publicación) y únicamente un 2,2% mediante la propiedad P571 (fecha de creación). Los resultados, agrupados por siglos, pueden verse en la Tabla VII.
Siglo | Ítems | C1 | C2 | C3 | Total Wiki3DRank | % ítems | % con fecha | % Wiki3DRank | Ratio Wiki3DRank |
---|---|---|---|---|---|---|---|---|---|
21 | 2.319 | 22.095 | 217 | 7 | 171.355,06 | 24,87 | 40,32 | 35,01 | 7,68 |
20 | 1.836 | 30.990 | 802 | 44 | 256.594,02 | 35,47 | 57,51 | 52,42 | 8,06 |
19 | 5.174 | 4.675 | 54 | 45 | 48.627,96 | 5,77 | 9,35 | 9,93 | 9,4 |
18 | 745 | 665 | 75 | 5 | 7.076,54 | 0,83 | 1,35 | 1,45 | 9,5 |
17 | 510 | 423 | 75 | 12 | 5.118,64 | 0,57 | 0,92 | 1,05 | 10,04 |
16 | 405 | 364 | 35 | 6 | 3.764,97 | 0,45 | 0,73 | 0,77 | 9,3 |
15 | 127 | 115 | 12 | 0 | 1.231,98 | 0,14 | 0,23 | 0,25 | 9,7 |
14 | 109 | 100 | 7 | 2 | 1.065,45 | 0,12 | 0,2 | 0,22 | 9,77 |
13 | 109 | 90 | 18 | 1 | 1.113,1 | 0,12 | 0,2 | 0,23 | 10,21 |
12 | 78 | 57 | 21 | 0 | 817,74 | 0,09 | 0,14 | 0,17 | 10,48 |
11 | 39 | 29 | 8 | 2 | 421,13 | 0,04 | 0,07 | 0,09 | 10,8 |
10 | 31 | 22 | 8 | 1 | 351,85 | 0,04 | 0,06 | 0,07 | 11,35 |
9 | 20 | 17 | 2 | 1 | 217,65 | 0,02 | 0,04 | 0,04 | 10,88 |
8 | 24 | 17 | 7 | 0 | 250,53 | 0,03 | 0,04 | 0,05 | 10,44 |
7 | 8 | 6 | 2 | 0 | 98,69 | 0,01 | 0,01 | 0,02 | 12,34 |
6 | 9 | 8 | 1 | 0 | 103,88 | 0,01 | 0,02 | 0,02 | 11,54 |
5 | 4 | 2 | 2 | 0 | 50,04 | 0 | 0,01 | 0,01 | 12,51 |
4 | 25 | 25 | 0 | 0 | 219,4 | 0,03 | 0,05 | 0,05 | 8,78 |
3 | 11 | 8 | 3 | 0 | 110,54 | 0,01 | 0,02 | 0,02 | 10,05 |
2 | 39 | 28 | 11 | 0 | 421,77 | 0,04 | 0,07 | 0,09 | 10,81 |
1 | 19 | 9 | 6 | 4 | 256,07 | 0,02 | 0,03 | 0,05 | 13,48 |
-2 | 16 | 6 | 10 | 0 | 229,05 | 0,02 | 0,03 | 0,05 | 14,32 |
-3 | 6 | 2 | 3 | 1 | 92,72 | 0,01 | 0,01 | 0,02 | 15,45 |
-4 | 6 | 2 | 3 | 1 | 78,76 | 0,01 | 0,01 | 0,02 | 13,13 |
-5 | 9 | 8 | 0 | 1 | 100,65 | 0,01 | 0,02 | 0,02 | 11,18 |
-6 | 10 | 1 | 9 | 0 | 150,79 | 0,01 | 0,02 | 0,03 | 15,08 |
-7 | 1 | 1 | 0 | 0 | 11,01 | 0 | 0 | 0 | 11,01 |
-9 | 1 | 0 | 1 | 0 | 17,31 | 0 | 0 | 0 | 17,31 |
-10 | 2 | 0 | 1 | 1 | 37,28 | 0 | 0 | 0,01 | 18,64 |
-12 | 1 | 0 | 1 | 0 | 14,29 | 0 | 0 | 0 | 14,29 |
-15 | 1 | 0 | 1 | 0 | 13,54 | 0 | 0 | 0 | 13,54 |
-16 | 1 | 0 | 1 | 0 | 15,28 | 0 | 0 | 0 | 15,28 |
-19 | 1 | 1 | 0 | 0 | 12,81 | 0 | 0 | 0 | 12,81 |
-20 | 2 | 0 | 2 | 0 | 31,34 | 0 | 0 | 0,01 | 15,67 |
-23 | 2 | 1 | 0 | 1 | 22,02 | 0 | 0 | 0 | 11,01 |
-25 | 1 | 1 | 0 | 0 | 8,3 | 0 | 0 | 0 | 8,3 |
-27 | 1 | 1 | 0 | 0 | 12,43 | 0 | 0 | 0 | 12,43 |
Más del 87% de los ítems que dispone de algún tipo de fecha (un 50% del total de ítems del conjunto de datos) tienen una fecha de publicación o creación correspondiente a los siglos XX y XXI. Los datos pueden agruparse o analizarse de forma más detallada. La Figura 4muestra una distribución del Wiki3DRank por siglo y también de todos los ítems de las obras publicadas o creadas en el Siglo XX por año. También se muestra el clúster al que pertenece cada obra. Como parece razonable, se recogen pocas obras de la antigüedad remota que no tengan cierta relevancia (clúster principal y secundario). En general, podemos ver que los datos tienen una distribución temporal variada, con un acento, para el siglo XX, en sus años centrales.
El filtrado por idioma es otra interesante posibilidad que ofrece el estudio de los datos temporales. Puede observarse la evolución en la producción literaria y su éxito en el tiempo para cada idioma, e incluso la comparación de esta faceta entre diferentes idiomas (Figura 5).
5. DISCUSIÓN
⌅El trabajo presenta varios elementos que podrían ser valiosos: establece un umbral cuantitativo de la cantidad de obras que podríamos señalar como excepcionalmente relevantes globalmente, una forma de ponderarlas individualmente y una lista de obras del canon literario universal. En esta lista pueden encontrarse títulos generalmente señalados como “clásicos de todos los tiempos”. Son relatos fácilmente identificables como parte de la tradición y que pueden situarse en ciertos momentos y lugares de la historia.
La cuantificación de NWikis, NProps y NWords refleja tres medidas indirectas de algo que podemos llamar “esfuerzo enciclopédico” o también “atención enciclopédica”. Por un lado, la extensión de los artículos en Wikipedia en cualquier idioma, usando una medida acumulativa y no una medida ponderada de centralidad (NWords). Por otro lado, la profundidad descriptiva en Wikidata, que refleja otro tipo de atención orientada a datos y detalles factuales sobre la obra (NProps). Complementa la visualización la difusión de la obra a lo largo de diferentes idiomas, que actúa como indicador de presencia global (NWikis). La integración de estas tres variables permite una representación más rica que el uso de cada una de ellas por separado. La posición de las obras con respecto a los ejes de los diagramas de dispersión indica hacia donde se inclina la balanza del equilibrio entre texto-datos (Wikipedia/Wikidata) y permite detectar irregularidades y asimetrías. Pocas obras del clúster secundario C2 alcanzan magnitudes comparables, en alguno de los tres parámetros, con las obras del clúster principal C3.
Si comparamos las obras del clúster principal C3 con los resultados del sitio web WikiRank para la categoría “Books” encontramos una coincidencia del 74,3%. Sin embargo, apreciamos una mejor ordenación de las obras aplicando Wiki3DRank y una sorprendente cantidad de obras recientes y comerciales en los resultados mostrados en WikiRank. Los tres clústeres obtenidos guardan cierto parecido con otras propuestas realizadas desde otros presupuestos. El clúster principal C3, de 163 obras, tiene unas dimensiones similares al que propone Christiane Zschirnt en su estudio “Libros, todo lo que hay que saber” (Zschirnt, 2011Zschirnt, C. (2011). Libros: todo lo que hay que saber (1a ed). Taurus.). Esta autora escoge 141 obras, existiendo una coincidencia sustancial entre su selección y las obtenidas en este trabajo8 Únicamente 94 de las obras, propuestas por la autora, están catalogadas expresamente como “Obra literaria” en Wikidata, y son las únicas que podrían aparecer en nuestro estudio. De ellas el C3 recoge 92 obras (el 97%). Teniendo en cuenta todas las obras de la autora, el grado de concordancia sería del 65%.. Por otro lado, un enfoque más abarcador como “1001 libros que hay que leer antes de morir» (Boxall y Mainer, 2016Boxall, P., y Mainer, J. C. (2016). 1001 libros que hay que leer antes de morir: relatos e historias de todos los tiempos (7a ed.). Grijalbo.), número escogido por su vistosidad, es más cercano al conjunto de C3 y C2 (2336 obras) aunque se ajusta casi a la perfección con la alternativa del cálculo de únicamente dos clústeres, que resultaría en 1008 obras.
Un aspecto que llama la atención es la presencia de obras de las tradiciones religiosas, especialmente la judeocristiana. Generalmente estas obras no tienen consideración de obras literarias en los estudios del ámbito de la crítica e historia de la literatura (“Génesis”, “Levítico”, “Epístola a los Filipenses”, etc.). Estos textos mitológico-espirituales constituyen la base de comunidades religiosas y merecerían diferenciarse para obtener un cuadro más ajustado a lo que hoy se considera literatura en sentido estricto. Este mismo problema surge cuando encontramos obras de ensayo, pensamiento o divulgación (“La Riqueza de las naciones” o “La República”). Desde el ámbito de la distribución de libros, se tiende a diferenciar entre los bloques de ficción y no-ficción, situándose la literatura en el primer grupo. Llama la atención la inclusión de obras como “Mein Kampf” o “El libro Guiness de los récords” en el clúster principal. En este sentido sería necesario estudiar cómo identificar mejor el objeto de interés y prevenir resultados fuera del concepto de lo que se entiende como canon literario.
Un repaso minucioso de C3 permite detectar también ausencias notables. La razón se debe a la existencia de inconsistencias en la asignación de las clases adecuadas a los ítems. Se utiliza frecuentemente la clase “libro” para las obras actuales, o bien “obra escrita” para otros muchos casos. También se debe al nivel de especificidad en las tipificaciones, asignándose, en muchos casos, clases de un mayor nivel de detalle dentro de la clase “obra literaria”. Se requeriría profundizar en la selección precisa de las clases y subclases dentro del esquema de conocimiento de Wikidata. De este modo se tendría en cuenta la tendencia a la desorganización e inconsistencia cuando se recorren más elementos de la taxonomía de clases. Esto requiere meticulosos procesos de validación y eliminación de ruido. Puede advertirse una situación similar para las obras que se presentan en forma de sagas o series, para las cuales los resultados se distribuyen entre la obra individual y la serie completa, según hayan sido descritas. Este funcionamiento agregado dificulta su identificación precisa. “El señor de los anillos” no aparece como tal, ya que se vincula con las clases “trilogía literaria” (Q13593966) y “novela” (Q1667921), pero sí alguno de sus volúmenes. Tampoco queda claro si en Don Quijote están reunidas ambas partes de la obra. La dualidad obra-agregación señala la conveniencia de establecer procedimientos para asignar ranking a las obras que aparecen individualmente y agrupadas, como “El Génesis” y “La Biblia” o cada uno de los libros de sagas y series de novelas como las de Sherlock Holmes. De la misma forma, el canon parece perjudicar a las obras poéticas y a los cuentos, seguramente por las condiciones de su edición y publicación en numerosas y variadas recopilaciones.
Por otro lado, la propia consistencia de los datos consignados en Wikidata dificulta la exploración sistemática de otros aspectos como autores, géneros, temas, etc. Sin entrar en un análisis detallado, se observa en el conjunto de datos analizado una importante variabilidad en el uso de propiedades descriptivas, y un uso muy heterogéneo de ellas, al no existir pautas de descripción consensuadas, y usar diferentes niveles de detalle en la asignación de categorías para las propiedades que deberían corresponder a vocabularios controlados dentro de la taxonomía de clases disponible. Aun así, conforme las obras tienen mayor Wiki3DRank, o pertenecen al clúster principal o secundario, tienen mayor calidad descriptiva.
En relación con las obras recientes se detecta la presencia de numerosos libros superventas, que no suelen entenderse como obras reconocidas por la crítica literaria más convencional, pero sí por nuevas corrientes de estudio sobre “best sellers canónicos” (Muñoz Rico y otros, 2020Muñoz Rico, M., García Rodríguez, A., y Cordón García, J. A. (2020). Hacia una teoría del bestseller canónico: la constitución de un modelo estructural. Revista General de Información y Documentación, 30(1), 149-165. DOI: https://doi.org/10.5209/rgid.69673.). Ejemplos de ello son la saga de Harry Potter o Los juegos del hambre. Esto sugiere cierta dificultad para captar correctamente, mediante el mecanismo de cálculo usado en este estudio, la relevancia de estas obras nacidas en un contexto de grandes fenómenos de difusión en la cultura de masas. Sin embargo, las obras de los siglos XIX y XX parecen encajar con el modelo utilizado en la investigación.
La distribución temporal de las obras muestra obras de todas las épocas. No obstante, predominan las obras de los siglos XX y XXI, en consonancia con el surgimiento de un mercado masivo para el libro y el auge de los medios de comunicación de masas. Los datos de C2 y C3 podrían representar la idea genérica de “clásicos actuales y de todos los tiempos”. Cuanto mayor es la distancia temporal con las obras recogidas, más habitual es que predominen solo aquellas con cierta relevancia y cuyo interés ha sido decantado por el paso del tiempo.
Los idiomas de las obras de C3 reflejan una cierta variedad lingüística que se acerca a la idea de canon global. El clúster equilibra la tendencia “eurocéntrica” de cánones literarios propuestos por otros autores. No obstante, sigue reflejando la disparidad de la difusión de las lenguas asociadas a los imperios coloniales y las potencias económicas. Pese a ello, permite una mayor oportunidad de destacar a las lenguas muertas y no occidentales. Conviene señalar que, fuera de los idiomas occidentales dominantes, la presencia de obras en otros idiomas se relaciona con la antigüedad remota.
6. CONCLUSIONES E INVESTIGACIONES EN CURSO
⌅Los resultados obtenidos muestran que el uso combinado de Wikidata y Wikipedia puede utilizarse como fuente de datos para definir un canon literario y por lo tanto la hipótesis planteada al inicio de este trabajo quedaría verificada. La observación y medición de la atención prestada por la comunidad Wikimedia a las obras literarias permite conocer algo más sobre su relevancia y visibilidad, y actuar de complemento a la propuesta de canon que realizan los medios, la academia y la industria editorial. He aquí otra fuente más para debatir sobre un canon plural, abierto y múltiple, que recoge el resultado de muchas voces autónomas y actores individuales.
A diferencia de una encuesta de gustos, Wikipedia refleja actos individuales para cuidar la información sobre la literatura poniendo esfuerzo en el enriquecimiento de artículos y descripciones. El estudio presentado guarda, en cierto modo, paralelismos con estudios sobre la traducción, las tiradas, reediciones y ventas en literatura, todos ellos terrenos sobre los que no existen fuentes longitudinales fácilmente accesibles y procesables. Los datos obtenidos muestran hasta cierto punto que se amoldan al modelo conceptual LRM, que diferencia la Obra de sus Expresiones y Manifestaciones, por lo que es posible obtener un inventario colaborativo de literatura en cada idioma y global por agregación de todas las ediciones de Wikipedia.
La visibilidad en Wikipedia de las obras literarias concuerda todavía bastante con el canon escolar y académico de los manuales de literatura universal. Pese a ello, se percibe una tendencia paulatina hacia una mayor “presentización”, en donde ganan espacio las obras de éxito masivo y transmedia de los siglos XX y XXI. El análisis de las ediciones en cada idioma, combinado con la literatura producida en cada lengua, permite dibujar de forma ágil espacios geográficos de proximidad cultural e influencia. Este efecto podría reducirse introduciendo una nueva variable que considerara la fecha de publicación o creación de las obras y que incremente el valor de Wiki3DRank de las obras más antiguas, o algunos otros atributos de dominio que puedan relacionarse con aspectos de calidad e impacto.
Por otra parte, somos conscientes de que la selección de ítems y artículos analizados (aquellos clasificados directamente como “obra literaria” en Wikidata) abarca tan solo una porción del universo real de este tipo de obras. Por este motivo, es preciso diseñar mecanismos de exploración que analicen otras clases utilizadas para tipificar las obras literarias. Es imprescindible tener en cuenta la validación del caos organizativo de la taxonomía de clases producido por la descripción colaborativa. Por dicho motivo, es esencial comprender que la metodología utilizada se basa exclusivamente en los datos existentes de aquellas obras literarias identificadas de forma explícita como tales en Wikidata.
Lo anterior también implica que quedarían fuera aquellas obras que estén presentes en otros cánones literarios elaborados de forma subjetiva según el criterio del autor, pero que no estén presentes en Wikidata. Además, como muestran los resultados, la cobertura de una obra en las diferentes ediciones de Wikipedia es determinante para establecer su posición en el ranking calculado mediante Wiki3DRank. Esto significa que las obras con una difusión reducida o limitada al ámbito de un idioma, serían poco representativas en un canon universal. No obstante, el método propuesto seguiría siendo válido para definir un canon literario para un idioma específico.
También parece necesario el uso de métricas relacionadas con la profundidad editorial y la actividad de los editores en los artículos sobre obras literarias en Wikidata/Wikipedia. Además, deben elaborarse de manera que permitan captar de una forma más detallada la atención y el esfuerzo puesto en cada artículo e ítem, como medida indirecta de su valor.
Es necesario mencionar, que la agregación de la transformación logarítmica de NWikis, NProps y NWords para calcular Wiki3DRank ofrece resultados coherentes respecto a la hipótesis planteada. Como línea de trabajo futura se plantea un cálculo alternativo en el que las obras se representen como vectores. Los componentes de dichos vectores se corresponderían con las transformaciones logarítmicas de dichas variables. Mediante este método Wiki3DRank podría obtenerse a partir del cálculo del módulo del vector correspondiente de cada obra.
Este estudio abre la puerta al uso de Wikipedia para la extracción de una propuesta de canon cultural transmedia. Dicho canon incluiría a los otros grandes formatos de ficción narrativa, como el cine, cómic y televisión. Todo ello permitiría profundizar en sus relaciones, puesto que se consumen y publican en ciclos iterativos de versiones, adaptaciones, actualizaciones y recreaciones, lo cual tampoco es un fenómeno nuevo del todo, aunque sí lo sea su ritmo e impacto.