Análisis de los descriptores de diferentes áreas del conocimiento indizadas en bases de datos del CSIC. Aplicación a la indización automática
DOI:
https://doi.org/10.3989/redc.1997.v20.i2.589Palabras clave:
Análisis de descriptores, análisis lingüístico, análisis estadístico, indización automática, bases de datos del CSICResumen
Se estudia el valor de los títulos y resúmenes de los artículos científicos como fuentes suministradoras de términos para la indización de los documentos en seis áreas del conocimiento indizadas en las bases de datos ISOC, IME e ICYT del CSIC. Asimismo, se examina la estructura sintagmática de los términos de indización hallados en el campo «Descriptores», y la posible relación entre el número de descriptores de un documento con la cantidad de páginas del mismo. Para tales fines se seleccionaron las áreas del conocimiento de Biblioteconomía y Documentación, Medicina, Química , Biología, Psicología y Física, y se realizaron seis búsquedas en estas bases de datos de las que seleccionamos 450 referencias bibliográficas (75 por área) proporcionando un total de 2.077 descriptores. El 38,1% de los descriptores asignados a dichos registros aparece en el título, resumen o en el título y resumen a la vez. Como estructuras sintagmáticas descubrimos que el 41,9% de los descriptores son sustantivos, el 32,3% sustantivo+adjetivo, y el 11,8% son sustantivo+de+sustantivo, quedando solamente un 14% para otras estructuras. Y por último, se han encontrado artículos con escasas páginas y descriptores, documentos amplios y con pocos descriptores asignados, artículos con pocas páginas y una cantidad importante de descriptores, y documentos con un número ele vado tanto de páginas como de descriptores. Se concluye que los títulos, cuando no son lo suficientemente precisos y los resúmenes no están bien elaborados, no son fuentes definitivas para la extracción de conceptos; en segundo lugar, que la estructura sintagmática más común es el sustantivo seguido de sustantivo+adjetivo y sustantivo+de+sustantivo; y tercero, que no se aprecia ninguna relación entre el número de páginas de un documento y la cantidad de descriptores asignados.
Descargas
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 1997 Consejo Superior de Investigaciones Científicas (CSIC)

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
© CSIC. Los originales publicados en las ediciones impresa y electrónica de esta Revista son propiedad del Consejo Superior de Investigaciones Científicas, siendo necesario citar la procedencia en cualquier reproducción parcial o total.
Salvo indicación contraria, todos los contenidos de la edición electrónica se distribuyen bajo una licencia de uso y distribución “Creative Commons Reconocimiento 4.0 Internacional ” (CC BY 4.0). Consulte la versión informativa y el texto legal de la licencia. Esta circunstancia ha de hacerse constar expresamente de esta forma cuando sea necesario.
No se autoriza el depósito en repositorios, páginas web personales o similares de cualquier otra versión distinta a la publicada por el editor.