Enriqueciendo la investigación en humanidades digitales. Análisis de textos de claustros académicos de la Universidad de Valencia (1775-1779) con KH Coder

 

ESTUDIOS / RESEARCH STUDIES

ENRIQUECIENDO LA INVESTIGACIÓN EN HUMANIDADES DIGITALES. ANÁLISIS DE TEXTOS DE CLAUSTROS ACADÉMICOS DE LA UNIVERSIDAD DE VALENCIA (1775-1779) CON KH CODER

Yolanda Blasco-Gil*, Luis M. González**, Armando Pavón-Romero***, Mariano Mercado-Estrada****, Carlos Pavón-Romero*****, Ana M. Cabrera******, Fernanda Garzón-Farinós*******, Fernanda Peset********

* Departamento de Derecho Financiero e Historia del Derecho. Facultad de Derecho. Universitat de València

Correo-e: Yolanda.blasco@uv.es | ORCID iD: http://orcid.org/0000-0002-9940-7454

** Departamento de Educación Física y Deportiva Facultad de Ciencias de la Actividad Física y el Deporte. Universitat de València

Correo-e: Luis.m.gonzales@uv.es | ORCID iD: http://orcid.org/0000-0002-6478-4014

*** Área de Investigación de Historia de la educación y la cultura. Instituto de Investigaciones sobre la Universidad y la Educación. Universidad Nacional Autónoma de México

Correo-e: apavon@unam.mx | ORCID iD: http://orcid.org/0000-0003-4883-7099

**** Archivo Histórico de la UNAM (AHUNAM). Instituto de Investigaciones sobre la Universidad y la Educación. Universidad Nacional Autónoma de México

Correo-e: marisandi72@yahoo.com.mx | ORCID iD: http://orcid.org/0000-0002-6869-6046

***** Departamento de Cómputo. Instituto de Investigaciones sobre la Universidad y la Educación. Universidad Nacional Autónoma de México

Correo-e: cpavonr@unam.mx | ORCID iD: http://orcid.org/0000-0002-1691-0653

****** Centro Sanitario Integrado Juan Llorens. Consorcio Hospital General Universitario

Correo-e: acabrera@comv.es | ORCID iD: http://orcid.org/0000-0003-0316-3596

******* Facultad de Fisioterapia y Podología. Universidad Católica de Valencia San Vicente Mártir

Correo-e: fernanda.garzon@ucv.es | ORCID iD: http://orcid.org/0000-0002-8572-2664

******** Instituto Universitario de Matemática Pura y Aplicada. Universitat Politècnica de València

Correo-e: mpesetm@upv.es | ORCID iD: http://orcid.org/0000-0003-3706-6532

 

Trabajo presentado en el congreso INFO2018: Blasco Gil, Yolanda; Peset, Fernanda; González, Luis M.; Mercado, Mariano; Pavón, Carlos; Cabrera, Ana; Brotóns, Simón; Montañana, Pilar; Pavón, Armando; Garzón, Fernanda (2018). Enriqueciendo la investigación en humanidades digitales. Análisis de textos de claustros universitarios de la Universidad de Valencia (1775-1779) con KH Coder. En: INFO 2018 IDICT. IX Seminario Internacional sobre Estudios Cuantitativos y Cualitativos de la Ciencia y la Tecnología “Prof. Gilberto Sotolongo”. La Habana, Cuba, 5-9 marzo 2018. Disponible en: http://www.congreso-info.cu/index.php/info/info2018 [Fecha de consulta: 23/04/2019].

 

RESUMEN

La aplicación de métodos automatizados en cualquier investigación ha facilitado el trasvase de metodologías de una disciplina a otra, permitiendo realizar análisis cuantitativos a textos con estructura o semiestructurados. El objeto de este trabajo es aplicar a un dataset en lenguaje natural -castellano del siglo XVIII- métodos de análisis de la disciplina de documentación. Pretende establecer una metodología automática de análisis cuantitativo y cualitativo de textos, que permita enriquecer en el futuro las conclusiones procedentes del análisis histórico tradicional. Este estudio construye los procedimientos necesarios para poder aplicar análisis de frecuencia, extracción y clasificación de palabras y la construcción de clústeres y redes neuronales con un dataset preexistente, de características muy singulares. Permite validar diferentes utilidades de herramientas y automatizar parte del trabajo de los historiadores, para la edición de los corpus documentales de los claustros universitarios.

ENRICHING RESEARCH IN DIGITAL HUMANITIES. ANALYSIS OF THE UNIVERSITY OF VALENCIA SCHOLAR CLOISTERS (1775-1779) WITH KH CODER

ABSTRACT

Applying automated methods to documents allows performing quantitative analysis of structured or semi-structured texts. This work aims to establish an automatic methodology for the quantitative and qualitative analysis of texts that may, in the future, enrich the conclusions drawn from traditional historical analysis. This work establishes the necessary procedures to be able to apply word frequency analysis, extraction and classification of words and the construction of clusters and networks with a pre-existing dataset, with unique characteristics. It allows the validation of different tool utilities and the automation of part of the work of the historians for the edition of the next documentary corpus of cloisters.

Recibido: 24-09-2018; 2ª versión: 24-04-2019; Aceptado: 07-05-2019.

Cómo citar este artículo/Citation: Blasco-Gil, Y.; González, L. M.; Pavón-Romero, A.; Mercado-Estrada, M.; Pavón-Romero, C.; Cabrera, A. M.; Garzón-Farinós, F.; Peset, F. (2020). Enriqueciendo la investigación en humanidades digitales. Análisis de textos de claustros académicos de la Universidad de Valencia (1775-1779) con KH Coder. Revista Española de Documentación Científica, 43 (1): e257. https://doi.org/10.3989/redc.2020.S1

PALABRAS CLAVE: KH Coder; análisis de lenguaje natural; castellano antiguo; claustros universitarios; siglo XVIII.

KEYWORDS: KH Coder; natural language analysis; old Castilian language; university cloisters; XVIII century.

Copyright: © 2020 CSIC. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia de uso y distribución Creative Commons Reconocimiento 4.0 Internacional (CC BY 4.0).

CONTENIDOS

RESUMEN
ABSTRACT
1. INTRODUCCIÓN
2. MÉTODOS
3. RESULTADOS Y DISCUSIÓN
4. CONCLUSIONES
5. AGRADECIMIENTOS
6. NOTAS
7. REFERENCIAS

 

1. INTRODUCCIÓN Top

La aplicación de nuevas tecnologías a la investigación ha revolucionado la manera de hacer ciencia, los métodos. En el caso de las humanidades, entre ellas la historia, este nuevo escenario ha venido a llamarse humanidades digitales. Un término tan genérico incluye desde la distribución de objetos de investigación -ya sean textos o imágenes- a la aplicación de nuevos métodos de análisis.

En el caso de la historia, al tratarse de objetos producidos antes de la era digital, las humanidades digitales pueden referirse a las ediciones digitales de fuentes, a modo de libros y manuscritos facsímiles. Una de las formas de trabajo de los historiadores ha sido, desde hace años, la edición de fuentes procedentes de material de archivo.

Los materiales y métodos tradicionales para la historia de las instituciones universitarias cuentan con una larga tradición de edición de fuentes de archivo, inéditas, por ejemplo, de la Universidad de Valencia (Peset, 1977Peset, M. (ed.) (1977). Bulas, constituciones y documentos de la Universidad de Valencia. València: Universitat de València.; Peset y Febrer, 1999Peset, M.; Febrer, M. V. (eds.) (1999). Bulas, constituciones y estatutos de la universidad de Valencia, 2 vols. València: Universitat de València.; Marzal, 2003Marzal Rodríguez, P. (2003). Los Claustros de doctores y catedráticos del Estudio General de Valencia (1675-1741). València: Universitat de València.; Mayans, 2008Mayans i Siscar, G. (2008). Epistolario XXIII. Mayans y Nebot/2 (1742-1744). Teórica humanística y práctica en el foro. Valencia: Ayuntamiento de Oliva (Valencia). Estudio preliminar, transcripción y notas de Mariano Peset.). Sin duda, los libros de claustros o reuniones de doctores, profesores y consiliarios constituyen la serie documental más utilizada y abundante. Los claustrales se reunían porque el Consejo de Castilla enviaba frecuentes órdenes, que tenían que ser oídas y cumplidas por los catedráticos. Aunque las decisiones se hallan en los acuerdos municipales, los claustros resultan la fuente más rica porque transmiten noticias y resuelven las cuestiones relacionadas con la Universidad. Existen diferentes tipos de claustros en el siglo XVIII. El claustro mayor es donde se aprueban las constituciones en las universidades, y el de examinadores se dirige a cada facultad. Por su parte, las reuniones de pavordes eclesiásticos y los claustros de catedráticos administran las rentas, que son generales o particulares por facultad -medicina, teología, filosofía y leyes y cánones-. Estos últimos son los órganos que representan el sentir de la universidad y lo hacen llegar a instancias superiores. Los claustros de catedráticos son el reflejo de la vida universitaria hasta el siglo XIX, cuando el poder centralizado de los monarcas asfixia la vida académica.

El análisis de los claustros permite estudiar la gran variedad de temas que conforman una universidad, lo que se efectuó en la edición crítica de Blasco (2012Blasco Gil, Y. (2012). Claustros de Catedráticos de la Universidad de Valencia, 1775-1779. València: Universitat de València.). En general, los claustros permiten desde reconstruir la vida cotidiana -fiestas académicas y religiosas-, conocer las enseñanzas -planes de estudio, exámenes, nuevas asignaturas-, analizar la economía de las universidades -matrícula, salarios, gastos…-; a entender la organización universitaria o su relación con el entorno: disciplina escolar, cargos académicos, grupos de influencia que muestran los juegos de poder interno y sus relaciones externas con los síndicos del ayuntamiento y el gobierno del rey a través de sus disposiciones e incluso rogativas por los partos de las princesas...

Las técnicas y métodos que los historiadores aplican para el análisis de fuentes permiten reconstruir las historias a través de la lectura cualitativa, extrayendo y comparando los temas. Una investigación puede considerarse crítica cuando sigue cuatro etapas. En primer lugar, la elección de la pregunta que se le hace al pasado desde el presente ha de estar explicitada en un tiempo y lugar. En segundo lugar, el plan de trabajo incluye los puntos a revisar y cómo hacerlo, lo que tradicionalmente se ha basado en revisiones bibliográficas y de fuentes de archivo o editadas. La obtención de bibliografía y fuentes, así como la compilación de sus metadatos constituye el tercer paso, previo a una lectura en profundidad. Por último, en el caso de las fuentes es imprescindible la crítica externa, determinando su autenticidad, el autor, la fecha, lugar y tipo de documento, así como la crítica interna que desentraña el sentido del documento. Esta última puede incluir la traducción o transcripción, el análisis del lenguaje y las ideas y una valoración de su veracidad e intención del autor. Su objetivo es relacionar las diferentes fuentes de conocimiento, contextualizarlas y completarlas.

En estos momentos, la aplicación de procesos automatizados en cualquier disciplina está facilitando el trasvase de metodologías. Permite, por ejemplo, realizar análisis cuantitativos a textos con estructura o semiestructurados, lo que se conoce como minería de textos y datos. Ante la cantidad de información que se produce resulta imposible extraer todos sus significados con métodos mediados por humanos, por lo que estas técnicas están en pleno auge. El conocimiento de un campo avanza ahora hacia la analítica de grandes masas de información y la aplicación de inteligencia artificial. Esto se evidencia tanto en los proyectos que crean plataformas de análisis como OpenMindTeD[1] como en las peticiones para deponer los obstáculos legales derivados de la protección intelectual en Europa (Maximising…, 2018Maximising the benefits of Artificial Intelligence through future-proof rules on Text and Data Mining (2018). Disponible en:http://eare.eu/assets/uploads/2018/03/OpenLetter-to-European-Commission-on-AI-and-TDM_9April2018.pdf [Fecha de consulta: 6/05/2018].).

Este trabajo se inserta en el contexto experimental de análisis de textos y colaboran en él perfiles de historia, tecnología, ciencias de la salud, archivos y documentación. Se aplican a un dataset en español del siglo XVIII métodos procedentes de otras disciplinas, como la documentación automatizada, con análisis de datos bibliográficos estructurados -bibliometría- o lenguaje natural, cuando se clasifican documentos o conocimiento (Serrano-Bedia y otros, 2013Serrano-Bedia, A. M.; López-Fernández, M. C.; Pérez-Pérez, M. (2013). Análisis de la relación entre flexibilidad en operaciones y performance empresarial mediante técnicas bibliométricas. Revista Española de Documentación Científica, 36 (4), e022. http://dx.doi.org/10.3989/redc.2013.4.1007.; Cruz-Ramírez y otros, 2014Cruz-Ramírez, M.; Escalona-Reyes, M.; Cabrera-García, S.; Martínez-Cepena, M. C. (2014). Análisis cienciométrico de las publicaciones educacionales cubanas en la WoS y Scopus (2003-2012). Revista Española de Documentación Científica, 37 (3), e058. http://dx.doi.org/10.3989/redc.2014.3.1119.; Ortega, 2015Ortega, J. L. (2015). Diferencias y evolución del impacto académico en los perfiles de Google Scholar Citations: Una aplicación de árboles de decisión. Revista Española de Documentación Científica, 38 (4), e102. http://dx.doi.org/10.3989/redc.2015.4.1225.; Ramos-Simón, 2017Ramos-Simón, L.F. (2017). El uso de las licencias libres en los datos públicos abiertos. Revista Española de Documentación Científica, 40 (3), e179. http://dx.doi.org/10.3989/redc.2017.3.1376.; Castillo-Rojas y Vega-Damke, 2018Castillo-Rojas, W.; Vega-Damke, J. (2018). Visualización Interactiva para Modelos de Clústeres. Ingeniare. Revista Chilena de Ingeniería, 26 (1), 130-141. http://dx.doi.org/10.4067/S0718-33052018000100130.). Su objetivo es establecer una metodología automática de análisis cuantitativo y cualitativo de textos que en el futuro enriquezca las conclusiones que derivan del análisis histórico tradicional. La hipótesis a validar es si las herramientas procedentes del campo del análisis textual son útiles para identificar hechos significativos en lenguaje natural. Pretende establecer los procedimientos necesarios para aplicar un análisis de frecuencia, extracción y clasificación de palabras, y construcción de clústeres y redes con un dataset de características muy singulares. Esta contribución permite validar diferentes utilidades de herramientas y automatizar parte del trabajo de los historiadores para la edición de los próximos corpus documentales de claustros.

 

2. MÉTODOS Top

El trabajo toma como base la edición del libro 78 de los claustros de catedráticos de la Universidad de Valencia, 1775-1779, publicado por Blasco (2012Blasco Gil, Y. (2012). Claustros de Catedráticos de la Universidad de Valencia, 1775-1779. València: Universitat de València.). El dataset utilizado procede de un archivo en formato Word proporcionado en fecha 30/09/2015 por la autora. “Corresponden: 59 a claustros generales de catedráticos; seis claustros particulares de catedráticos de la facultad de medicina; tres de teología; tres de filosofía y uno de leyes y cánones”. Este archivo original contenía los 72 claustros que analizó: 360 páginas, con unas 92.000 palabras, que aumentaron hasta 93.520 palabras tras su preprocesamiento. Se efectuaron las pruebas para todo el dataset y para un subdataset que contenía únicamente los claustros particulares de medicina.

La estructura de cada acta es similar. Se inicia con la fecha, se establece que hubo convocatoria previa y el lugar de la reunión. Posteriormente, se registra la lista de asistentes, con el nombre de los presentes y la cátedra que rigen. A continuación, el secretario establece el asunto a tratar y se consigna el desarrollo de la reunión y, en su caso, la votación. Finalmente, el acta es certificada por el escribano, con su nombre y rúbrica.

De los 72 claustros, se ofrece un listado, donde se presenta la información de uno de los claustros de medicina para ver sus características:

“Claustro 6 de septiembre de 1777

[Al margen izquierdo:] Septiembre 6

Junta de Claustro particular de Cathedráticos de la facultad de Medicina de la Universidad literaria de la Ciudad de Valencia, selebrada en la Capilla de Nuestra Señora de la Sapiencia de la misma, el día seis del mes de setiembre de mil setecientos setenta y siete años, a que asistieron el Señor D. Antonio Mayans, Canónigo y Rector de dicha Universidad, los Doctores D. Joseph Gascó, D. Manuel Mañez y D. Agustín Vicens, todos Cathedráticos de la citada facultad de Medicina; juntos y congregados, mediante convocación hecha ante diem con cedulillas impresas, practicada por dicho Señor Rector, por Antonio Morera, Vedel de dicha Universidad. Expresándose en aquella se convocava para las diez horas de la mañana de este día, las que ya eran dadas, a fin de ohír el informe que se ha de dar al Real Acuerdo, con Conminación presisa; de la qual convocación constó por relación hecha del citado Antonio Morera, Vedel, al contenido Señor Rector, a presencia de mí, el infrascrito Escrivano de su Magestad, uno de los Ayudantes de la Escrivanía Mayor de Cavildo, asistiendo como Secretario, en lugar y por D. Thomás Tinagero y Vilanova, Escrivano mayor de Ayuntamiento de esta Ilustre Ciudad de Valencia, que como tal lo es de aquella[…]”

En la Figura 1 se muestra su final e inicio en imágenes.

Figura 1. Imágenes del final e inicio de un acta de claustro

Imágenes del final e inicio de un acta de claustro

[Descargar tamaño completo]

 

El desafío que presenta este dataset en su análisis automático es innegable. Se trata de textos transcritos no estructurados que, además de estar escritos en lenguaje natural, utilizan grafías antiguas que varían. Blasco (2012Blasco Gil, Y. (2012). Claustros de Catedráticos de la Universidad de Valencia, 1775-1779. València: Universitat de València.) los transcribió siguiendo la norma de edición de textos paleográficos que intenta ser fiel al original, desarrollando las abreviaturas sin indicarlo, incluyendo las firmas y anotaciones de los laterales.

Antes de poder aplicar algunas herramientas especializadas de análisis de textos, se han guardado dos versiones en texto plano (.txt), una de ellas estructurándola en los mínimos campos que se identifican: NO, número de claustro; TY, tipo de claustro; TC, indica la serie, entendida como libro original; FE, fecha; AN, año; TX o texto completo de cada claustro. Se utilizó la herramienta Word de Microsoft Office para sustituir cadenas de caracteres. Para estructurar el dataset para BibExcel se añadieron las terminaciones “|” y “||” (final de campo y registro, respectivamente); y para KH Coder (Higuchi, 2015aHiguchi, K. (2015a). KH Coder v. 2.00. http://KHCoder.net/en/ [Fecha de consulta: 17/4/2019].), una cabecera (<h1></h1>) por cada claustro.

Existen múltiples opciones para analizar textos, desde profesionales como Cogito Discover a utilidades de red como textalyser.net. Las herramientas utilizadas para analizar el dataset provienen del análisis de textos (González y Peset, 2015González, L. M.; Peset, F. (2015). Reflexiones sobre las herramientas imprescindibles en la red para la explotación de datos. Anuario ThinkEPI.) y del campo de la bibliometría (García-García y otros, 2015García-García, A.; Pardo-Ibañez, A.; Ferrer, A.; Peset, F.; González, L. M. (2015). Herramientas de análisis de datos bibliográficos y construcción de mapas de conocimiento: BibExcel y Pajek. BiD: textos universitaris de biblioteconomia i documentació, 34. http://dx.doi.org/10.1344/BiD2015.34.22.). Para la extracción y almacenamiento de la información se empleó principalmente KH Coder (versión 2.00f; Higuchi, K., Ritsumeikan University, Japan), programa para el análisis cuantitativo y text mining para el lenguaje. Adicionalmente, el software BibExcel (Persson, 2011Persson, O. (2011). BibExcel. Version 2011-02-03. Umeå: Umeå University. https://homepage.univie.ac.at/juan.gorraiz/bibexcel/.) se utilizó para la frecuencia de palabras y el programa Pajek (Batagelj y Mrvar, 2008Batagelj, V.; Mrvar, A. (2008). Pajek Version 1.28. Ljubljana: University of Ljubljana. http://mrvar.fdv.uni-lj.si/pajek/.) para la representación. De esta forma, tanto análisis como visualización pudieron comprobarse con herramientas de uso libre.

 

3. RESULTADOS Y DISCUSIÓN Top

Sobre este dataset se ejecutaron diferentes análisis de frecuencia. La distribución de los 72 claustros por años muestra una acumulación en 1777 y una media de unas 1300 palabras para todos los años, tal y como se muestra en la Tabla I y la Figura 2.

Tabla I. Distribución de número de claustros y palabras por años

Distribución de número de claustros y palabras por años

[Descargar tamaño completo]

 

Figura 2. Distribución de número de claustros por fechas

Distribución de número de claustros por fechas

[Descargar tamaño completo]

 

Para el análisis del contenido textual, el primer desafío fue la construcción de un diccionario de palabras vacías como números, preposiciones, adverbios, conjunciones, etc., que fuera adecuado a este dataset. Los programas de análisis de textos permiten introducir uno diferente al inglés. Se escogió como base uno de los que existen para mejorar las búsquedas web, en este caso de la web Elwebmaster[2], con 344 palabras. Dado que el dataset estaba en castellano antiguo la lista de palabras vacías tenía que completarse con variantes y algunas otras que fueron identificadas expresamente. Para ello, se calculó la frecuencia de todas las palabras de los textos con BibExcel, según el procedimiento descrito en un trabajo anterior (García-García y otros, 2015García-García, A.; Pardo-Ibañez, A.; Ferrer, A.; Peset, F.; González, L. M. (2015). Herramientas de análisis de datos bibliográficos y construcción de mapas de conocimiento: BibExcel y Pajek. BiD: textos universitaris de biblioteconomia i documentació, 34. http://dx.doi.org/10.1344/BiD2015.34.22.). Estos son los quince primeros puestos de las frecuencias calculadas para las palabras con BibExcel (Tabla II). A partir de la palabra número 16, Universidad, se consideraron significativas.

Tabla II. Frecuencia de las 15 palabras vacías de los claustros, en BibExcel

Frecuencia de las 15 palabras vacías de los claustros, en BibExcel

[Descargar tamaño completo]

 

La ventaja de KH Coder para identificar palabras vacías es que las clasifica en subclases (Tabla III): Noun, Proper noun, Foreign y Verbs. Se utilizaron como palabras vacías las categorías de preposiciones, adjetivos, adverbios y verbos. Sin embargo, algunas palabras, no especialmente significativas que aparecieron en las categorías nombres o nombres propios, no fueron introducidos como palabras vacías (posiciones 9ª, 4ª y 101ª para Noun, ProperNoun y Foreign, respectivamente). En total, se obtuvo un fichero de 1026 palabras vacías, que se introdujo en KH Coder.

El diccionario de palabras vacías sumó un total de 1370 palabras, con el que se analizó todo el dataset de los claustros.

Tabla III. Frecuencias de las 5 primeras posiciones de todas las palabras vacías de los claustros, clasificadas por tipopor KH Coder

Frecuencias de las 5 primeras posiciones de todas las palabras vacías de los claustros, clasificadas por tipopor KH Coder

[Descargar tamaño completo]

 

Para establecer las frecuencias y co-ocurrencias de palabras se puede utilizar tanto BibExcel como KH Coder, pero el primero solo calcula la matriz que luego ha de visualizarse con Pajek. Por el contrario, KH Coder analiza y representa la información, por lo que se optó por utilizarlo. El procedimiento consistió en cargar el archivo de texto plano, configurar las palabras vacías desde el menú Proyecto y ejecutar el Preprocesamiento.

La potencia del programa puede verse en su manual (Higuchi, 2015bHiguchi, K. (2015b). KH Coder 2.x Reference Manual. http://khc.sourceforge.net/en/manual_en_v2.pdf [Fecha de consulta: 1/11/2017].), aunque examinar todas sus posibilidades no es objeto de este texto. Se ha escogido utilizar los análisis más sofisticados para minería de textos: análisis jerárquico de clúster, red de co-ocurrencias y mapas auto-organizados.

3.1. Análisis de clústeres

Es un método estadístico de análisis multivariante que permite identificar grupos similares, en este caso palabras. Esta técnica de clasificación está automatizada de la siguiente forma en KH Coder: se puede filtrar por la subclase de palabras a analizar. Para este caso, se ha limitado a Noun, Proper noun y Foreign (Fig. 3).

Figura 3. Menú análisis jerárquico de cluster y dendrograma completo con KH Coder

Menú análisis jerárquico de cluster y dendrograma completo con KH Coder

[Descargar tamaño completo]

 

En esta ocasión se identifican 9 clústeres, que se representan en el dendograma junto con la frecuencia. El clúster principal parece incluir los elementos formales de cada acta (Fig. 4).

Figura 4. Cluster principal y frecuencias

Cluster principal y frecuencias

[Descargar tamaño completo]

 

La aglomeración que parece más significativa se establece con el cuarto y más numeroso, que incluye nombres propios, como puede apreciarse en la Figura 5.

Figura 5. Cuarto cluster y frecuencias

Cuarto cluster y frecuencias

[Descargar tamaño completo]

 

Se ha de reconocer que el clúster que agrupa los términos más frecuentes corresponde a palabras inermes.

3.2. Redes de co-ocurrencia

Muestra una relación entre las palabras, sea o no significativa: “In co-word analysis, content is explored through the co-occurrence of pairs of terms or lexemes (such as words or phrases) in a corpus of papers” (Olmeda-Gómez y otros, 2017Olmeda-Gómez, C.; Ovalle-Perandones, M. A.; Perianes-Rodríguez, A. (2017). Co-word analysis and thematic landscapes in Spanish information science literature, 1985–2014. Scientometrics, 113 (1), 195-217. https://doi.org/10.1007/s11192-017-2486-8.), en este caso cada acta de claustro. Este fenómeno puede representarse en un grafo estructurado en nodos -las palabras- y aristas -sus relaciones, que puede incluir en la misma visualización otras dimensiones, como la frecuencia, los clústeres… Este tipo de representaciones se han popularizado en el análisis de redes sociales como Twitter.

En este análisis, se reflejan las relaciones entre todas las palabras del dataset (Fig. 6), pero excluyendo preposiciones y adjetivos.

Figura 6. Menú red de co-ocurrencias

Menú red de co-ocurrencias

[Descargar tamaño completo]

 

El dataset ofrece las agrupaciones y relaciones y añade a los nodos un vector para representar la frecuencia de las palabras tomando como unidad el párrafo y la oración (Fig. 7).

Figura 7. Red de co-ocurrencias con base párrafo (izquierda) y base oración (derecha)

Red de co-ocurrencias con base párrafo (izquierda) y base oración (derecha)

[Descargar tamaño completo]

 

Esta segunda visualización parece mostrar relaciones más significativas, por ejemplo, a la hora de identificar nombres (clúster verde azulado).

3.3. Mapas auto-organizados

Esta visualización se basa en un clasificador avanzado de características o vectores ideado por Teuvo Kohonen en la década de los 80 (Peiró-Velert y otros, 2014Peiró-Velert, C.; Valencia-Peris, A.; González, L. M.; García-Massó, X.; Serra-Añó, P.; Devís-Devís, J. (2014). Screen Media Usage, Sleep Time and Academic Performance in Adolescents: Clustering a Self-Organizing Maps Analysis. PLoS ONE, 9 (6), e99478. https://doi.org/10.1371/journal.pone.0099478.). Es una clase de algoritmos de redes neuronales competitivas de aprendizaje no supervisado. Esto significa que lo primero que construye es una red de nodos con un peso aleatorio de la característica para después, de forma iterativa, resituar los casos en neuronas o zonas, de manera que la representación topológica de las muestras, el mapa, se va modificando hasta analizar todas las características que se incluyan. Se pueden visualizar mapas de características individuales, pero a diferencia del análisis de clústeres esta técnica de mapas auto-organizados o Self Organizing Maps es capaz de tomar en cuenta todas las variables al tiempo en la presentación U-matrix (García-García y otros, 2014García-García, A.; García-Massó, X.; Ferrer-Sapena, A.; González, L. M.; Peset, F.; Villamón-Herrera, M.; Aleixandre-Benavent, R. (2014). Text mining versus redes neuronales. Dos métodos de análisis aplicados al caso de las políticas de las revistas sobre datos. 4ª Conferencia internacional sobre calidad de revistas de ciencias sociales y humanidades (CRECS 2014). Madrid: El Profesional de la Información; Biblioteca de la Universidad Complutense de Madrid. http://eprints.rclis.org/23152/1/pesetcrecs14.pdf [Fecha de consulta: 10/11/2017].). El resultado es un mapa de concordancias, donde la cercanía entre palabras evidencia una relación, mientras que la lejanía indica diferencias. Este análisis es indudablemente muy sofisticado y necesita una gran potencia de computación, dado que el algoritmo compara cada nueva palabra con la posición de las anteriormente analizadas.

En KH Coder se ha ejecutado con una frecuencia mínima o umbral de 100 para aligerar el cálculo (Fig. 8).

Figura 8. Menú mapa auto-organizado

Menú mapa auto-organizado

[Descargar tamaño completo]

 

En los resultados se muestra una concentración en los clústeres superior derecho e inferiores. Puede comprobarse el más significativo en la posición izquierda inferior, con los nombres de los claustrales (Fig. 9).

Figura 9. Matrix con todas las variables y 20 clusters

Matrix con todas las variables y 20 clusters

[Descargar tamaño completo]

 

Al tratarse del análisis más completo, se reprodujo solo para los claustros particulares de medicina. Esta es la Figura 10 que proporciona KH Coder, donde se observa la agrupación de palabras formales en los clústeres superior derecho e inferior izquierdo, mientras que aparecen otros con términos significativos.

Figura 10. U-matrix de los claustros particulares de medicina

U-matrix de los claustros particulares de medicina

[Descargar tamaño completo]

 

La comparación de los resúmenes de los claustros particulares de medicina ofrecidos por Blasco (2012Blasco Gil, Y. (2012). Claustros de Catedráticos de la Universidad de Valencia, 1775-1779. València: Universitat de València.) y el mapa auto-organizado para ese subdataset fue el más satisfactorio, encontrándose coincidencias de ciertas palabras, como jardín botánico o cátedras y censores, que se agrupan con coherencia en los clústeres donde aparecen otras relacionadas como huerto o Consejo, respectivamente:

  • Claustro Particular de Catedráticos de Medicina, 6 de septiembre de 1777. Acerca del informe de las ordenanzas del colegio de boticarios e instancias del gremio de «adrogueros», fols. 125-126v, de esta edición pp. 139-140. […]

  • Claustro Particular de Catedráticos de Medicina, 30 de septiembre de 1777. Acerca de la real orden en razón a si se han nombrado censores para propuesta de ternas en las cátedras de medicina, fols. 142-143, de esta edición pp. 150-151.

  • Claustro Particular de Catedráticos de Medicina, 3 de octubre de 1777. Informe al real consejo sobre nombramiento de censores a las ternas de las cátedras de medicina, fols. 143v-144v, de esta edición pp. 151-152.

  • Claustro Particular de Catedráticos de Medicina, 13 de mayo de 1778. Sobre el Jardín Botánico, fols. 217-218, de esta edición pp. 200-201 […]

  • Claustro Particular de Catedráticos de Medicina, 29 de julio de 1778. Informe sobre el Jardín Botánico, fols. 226v-231, de esta edición pp. 208-211.

 

4. CONCLUSIONES Top

El objetivo que se planteó en el estudio fue la experimentación con herramientas automáticas para extraer significados al dataset, en confrontación con un análisis humano. Ambos métodos desean extraer la exégesis de sus atributos o propiedades más interesantes por diferentes métodos. La aplicación de técnicas automatizadas facilita el análisis desde la perspectiva de las frecuencias y las similitudes. De las pruebas realizadas se derivan conclusiones referentes a las herramientas utilizadas, al diccionario de palabras vacías, la técnica de análisis más adecuada y recomendaciones para la preparación del dataset.

Primera. De las herramientas comprobadas, se descartó realizar el tratamiento con BibExcel y Pajek, como herramientas principales. BibExcel resulta más adecuado para datos estructurados, ya que su mayor fortaleza es el análisis entre citas bibliográficas como co-citas y emparejamiento bibliográfico. KH Coder se evidenció más adaptado al análisis de textos en lenguaje natural, simplificando en extremo algoritmos muy sofisticados y la representación estática de resultados. Sin embargo, KH Coder es menos potente que Pajek para la visualización dinámica. Uno de los problemas que plantea KH Coder es que guarda los resultados de las matrices en el programa estadístico de código abierto R, pero no se comunica directamente con Pajek, mientras que BibExcel sí lo hace.

Segunda. Respecto a la creación del diccionario de palabras vacías fueron utilizadas ambas herramientas de análisis para generarlo ad hoc, dada la complejidad del dataset utilizado, con variantes gráficas y morfológicas de una misma palabra. Para la mejora de resultados en un futuro podría utilizarse la opción avanzada de KH Coder POS tagger (Part-of-speech tagger), asignando parte del texto a algunas palabras, con el fin de identificar correctamente su significado.

Tercera. Las técnicas de análisis cualitativa y cuantitativa pueden ser complementarias. El mapa auto-organizado sobre claustros de medicina ofrece similitudes con los resúmenes de Blasco (2012Blasco Gil, Y. (2012). Claustros de Catedráticos de la Universidad de Valencia, 1775-1779. València: Universitat de València.). Por ello, aplicar técnicas automáticas puede facilitar futuros trabajos de corte cualitativo o completar el arduo trabajo de investigación en archivos, digitalización, traducción, transcripción y edición de fuentes.

Cuarta. Por último, si esta metodología fuera utilizada en el futuro para textos similares se recomendaría modificar la forma de transcripción y almacenamiento de los textos. En primer lugar, la fidelidad al original no es beneficiosa, ya que una de las frecuencias más repetidas son anotaciones como [Al margen izquierdo]. Este tipo de indicaciones distorsionan la interpretación de la frecuencia de los resultados. Por otra parte, se recomienda almacenar los textos de forma estructurada, para que la fase previa de sustitución y estructuración pueda ser obviada.

Por tanto, se puede afirmar que las herramientas de análisis de lenguaje natural se han aplicado con más éxito a textos homogéneos en su contenido, permitiendo incluso realizar comparaciones entre documentos diferentes como en el caso de los claustros de medicina. La metodología aquí expuesta indica, que para este tipo de datasets, los temas significativos aparecen en las menores frecuencias. Por el contrario, resulta difícil aconsejar el uso de este tipo de análisis cuando son textos dispares que presentan variaciones de base. En cualquier caso, solo se justificaría utilizar métodos automáticos cuando la cantidad de texto hace imposible la lectura, ya que la riqueza que un historiador identifica es siempre mayor.

 

5. AGRADECIMIENTOSTop

Este trabajo ha recibido financiación del Plan nacional I+D+i, MINECO (España), DATASEA Models to publish, consume and measure the reuse of research data: across institutional and geographical boundaries CSO2015-65594-C2-1R & 2R (MINECO/FEDER, UE) y Alma mater totius hispaniae: Proyección social, historia y pervivencias de las universidades hispánicas (siglos XVI-XX). MCYT, DER2016-78166-R. Y de la Universidad Nacional Autónoma de México-PAPIIT IN 401417 La corona y las universidades en el mundo hispánico. Siglos XVI-XVIII.

ACKNOWLEDGEMENTS

This work has received funds from the Plan nacional I+D+i, MINECO (España), DATASEA Models to publish, consume and measure the reuse of research data: across institutional and geographical boundaries CSO2015-65594-C2-1R & 2R (MINECO/FEDER, UE) and Alma mater totius hispaniae: Proyección social, historia y pervivencias de las universidades hispánicas (siglos XVI-XX) DER2016-78166-R. This work has also received funding from Universidad Nacional Autónoma de México-PAPIIT IN 401417, La corona y las universidades en el mundo hispánico. Siglos XVI-XVIII.

 

6. NOTAS Top

[1]

OpenMinTeD. Disponible en: openminted.eu [Fecha de consulta: 6/05/2018].

[2]

Elwebmster. Disponible en: http://www.elwebmaster.com/referencia/stopwords-en-espanol [Fecha de consulta: 6/05/2018].

 

7. REFERENCIASTop

Batagelj, V.; Mrvar, A. (2008). Pajek Version 1.28. Ljubljana: University of Ljubljana. http://mrvar.fdv.uni-lj.si/pajek/
Blasco Gil, Y. (2012). Claustros de Catedráticos de la Universidad de Valencia, 1775-1779. València: Universitat de València.
Castillo-Rojas, W.; Vega-Damke, J. (2018). Visualización Interactiva para Modelos de Clústeres. Ingeniare. Revista Chilena de Ingeniería, 26 (1), 130-141. http://dx.doi.org/10.4067/S0718-33052018000100130
Cruz-Ramírez, M.; Escalona-Reyes, M.; Cabrera-García, S.; Martínez-Cepena, M. C. (2014). Análisis cienciométrico de las publicaciones educacionales cubanas en la WoS y Scopus (2003-2012). Revista Española de Documentación Científica, 37 (3), e058. http://dx.doi.org/10.3989/redc.2014.3.1119
García-García, A.; García-Massó, X.; Ferrer-Sapena, A.; González, L. M.; Peset, F.; Villamón-Herrera, M.; Aleixandre-Benavent, R. (2014). Text mining versus redes neuronales. Dos métodos de análisis aplicados al caso de las políticas de las revistas sobre datos. 4ª Conferencia internacional sobre calidad de revistas de ciencias sociales y humanidades (CRECS 2014). Madrid: El Profesional de la Información; Biblioteca de la Universidad Complutense de Madrid. http://eprints.rclis.org/23152/1/pesetcrecs14.pdf [Fecha de consulta: 10/11/2017].
García-García, A.; Pardo-Ibañez, A.; Ferrer, A.; Peset, F.; González, L. M. (2015). Herramientas de análisis de datos bibliográficos y construcción de mapas de conocimiento: BibExcel y Pajek. BiD: textos universitaris de biblioteconomia i documentació, 34. http://dx.doi.org/10.1344/BiD2015.34.22
González, L. M.; Peset, F. (2015). Reflexiones sobre las herramientas imprescindibles en la red para la explotación de datos. Anuario ThinkEPI.
Higuchi, K. (2015a). KH Coder v. 2.00. http://KHCoder.net/en/ [Fecha de consulta: 17/4/2019].
Higuchi, K. (2015b). KH Coder 2.x Reference Manual. http://khc.sourceforge.net/en/manual_en_v2.pdf [Fecha de consulta: 1/11/2017].
Marzal Rodríguez, P. (2003). Los Claustros de doctores y catedráticos del Estudio General de Valencia (1675-1741). València: Universitat de València.
Maximising the benefits of Artificial Intelligence through future-proof rules on Text and Data Mining (2018). Disponible en:http://eare.eu/assets/uploads/2018/03/OpenLetter-to-European-Commission-on-AI-and-TDM_9April2018.pdf [Fecha de consulta: 6/05/2018].
Mayans i Siscar, G. (2008). Epistolario XXIII. Mayans y Nebot/2 (1742-1744). Teórica humanística y práctica en el foro. Valencia: Ayuntamiento de Oliva (Valencia). Estudio preliminar, transcripción y notas de Mariano Peset.
Olmeda-Gómez, C.; Ovalle-Perandones, M. A.; Perianes-Rodríguez, A. (2017). Co-word analysis and thematic landscapes in Spanish information science literature, 1985–2014. Scientometrics, 113 (1), 195-217. https://doi.org/10.1007/s11192-017-2486-8
Ortega, J. L. (2015). Diferencias y evolución del impacto académico en los perfiles de Google Scholar Citations: Una aplicación de árboles de decisión. Revista Española de Documentación Científica, 38 (4), e102. http://dx.doi.org/10.3989/redc.2015.4.1225
Peiró-Velert, C.; Valencia-Peris, A.; González, L. M.; García-Massó, X.; Serra-Añó, P.; Devís-Devís, J. (2014). Screen Media Usage, Sleep Time and Academic Performance in Adolescents: Clustering a Self-Organizing Maps Analysis. PLoS ONE, 9 (6), e99478. https://doi.org/10.1371/journal.pone.0099478
Persson, O. (2011). BibExcel. Version 2011-02-03. Umeå: Umeå University. https://homepage.univie.ac.at/juan.gorraiz/bibexcel/
Peset, M. (ed.) (1977). Bulas, constituciones y documentos de la Universidad de Valencia. València: Universitat de València.
Peset, M.; Febrer, M. V. (eds.) (1999). Bulas, constituciones y estatutos de la universidad de Valencia, 2 vols. València: Universitat de València.
Ramos-Simón, L.F. (2017). El uso de las licencias libres en los datos públicos abiertos. Revista Española de Documentación Científica, 40 (3), e179. http://dx.doi.org/10.3989/redc.2017.3.1376
Serrano-Bedia, A. M.; López-Fernández, M. C.; Pérez-Pérez, M. (2013). Análisis de la relación entre flexibilidad en operaciones y performance empresarial mediante técnicas bibliométricas. Revista Española de Documentación Científica, 36 (4), e022. http://dx.doi.org/10.3989/redc.2013.4.1007


Copyright (c) 2020 Consejo Superior de Investigaciones Científicas (CSIC)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional.


Contacte con la revista redc.cchs@cchs.csic.es

Soporte técnico soporte.tecnico.revistas@csic.es