Análisis de los descriptores de diferentes áreas del conocimiento indizadas en bases de datos del CSIC. Aplicación a la indización automática
DOI:
https://doi.org/10.3989/redc.1997.v20.i2.589Palabras clave:
Análisis de descriptores, análisis lingüístico, análisis estadístico, indización automática, bases de datos del CSICResumen
Se estudia el valor de los títulos y resúmenes de los artículos científicos como fuentes suministradoras de términos para la indización de los documentos en seis áreas del conocimiento indizadas en las bases de datos ISOC, IME e ICYT del CSIC. Asimismo, se examina la estructura sintagmática de los términos de indización hallados en el campo «Descriptores», y la posible relación entre el número de descriptores de un documento con la cantidad de páginas del mismo. Para tales fines se seleccionaron las áreas del conocimiento de Biblioteconomía y Documentación, Medicina, Química , Biología, Psicología y Física, y se realizaron seis búsquedas en estas bases de datos de las que seleccionamos 450 referencias bibliográficas (75 por área) proporcionando un total de 2.077 descriptores. El 38,1% de los descriptores asignados a dichos registros aparece en el título, resumen o en el título y resumen a la vez. Como estructuras sintagmáticas descubrimos que el 41,9% de los descriptores son sustantivos, el 32,3% sustantivo+adjetivo, y el 11,8% son sustantivo+de+sustantivo, quedando solamente un 14% para otras estructuras. Y por último, se han encontrado artículos con escasas páginas y descriptores, documentos amplios y con pocos descriptores asignados, artículos con pocas páginas y una cantidad importante de descriptores, y documentos con un número ele vado tanto de páginas como de descriptores. Se concluye que los títulos, cuando no son lo suficientemente precisos y los resúmenes no están bien elaborados, no son fuentes definitivas para la extracción de conceptos; en segundo lugar, que la estructura sintagmática más común es el sustantivo seguido de sustantivo+adjetivo y sustantivo+de+sustantivo; y tercero, que no se aprecia ninguna relación entre el número de páginas de un documento y la cantidad de descriptores asignados.
Descargas
Los datos de descargas todavía no están disponibles.
Descargas
Publicado
1997-06-30
Cómo citar
Gil Leiva, I., & Rodríguez Muñoz, J. V. (1997). Análisis de los descriptores de diferentes áreas del conocimiento indizadas en bases de datos del CSIC. Aplicación a la indización automática. Revista Española De Documentación Científica, 20(2), 150–160. https://doi.org/10.3989/redc.1997.v20.i2.589
Número
Sección
Estudios
Licencia
Derechos de autor 1997 Consejo Superior de Investigaciones Científicas (CSIC)
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
© CSIC. Los originales publicados en las ediciones impresa y electrónica de esta Revista son propiedad del Consejo Superior de Investigaciones Científicas, siendo necesario citar la procedencia en cualquier reproducción parcial o total.Salvo indicación contraria, todos los contenidos de la edición electrónica se distribuyen bajo una licencia de uso y distribución “Creative Commons Reconocimiento 4.0 Internacional ” (CC BY 4.0). Puede consultar desde aquí la versión informativa y el texto legal de la licencia. Esta circunstancia ha de hacerse constar expresamente de esta forma cuando sea necesario.
No se autoriza el depósito en repositorios, páginas web personales o similares de cualquier otra versión distinta a la publicada por el editor.