Revista española de Documentación Científica, Vol 20, No 2 (1997)

Análisis de los descriptores de diferentes áreas del conocimiento indizadas en bases de datos del CSIC. Aplicación a la indización automática


https://doi.org/10.3989/redc.1997.v20.i2.589

Isidoro Gil Leiva
Departamento de información y Documentación. Universidad de Murcia, España

José V. Rodríguez Muñoz
Departamento de información y Documentación. Universidad de Murcia, España

Resumen


Se estudia el valor de los títulos y resúmenes de los artículos científicos como fuentes suministradoras de términos para la indización de los documentos en seis áreas del conocimiento indizadas en las bases de datos ISOC, IME e ICYT del CSIC. Asimismo, se examina la estructura sintagmática de los términos de indización hallados en el campo «Descriptores», y la posible relación entre el número de descriptores de un documento con la cantidad de páginas del mismo. Para tales fines se seleccionaron las áreas del conocimiento de Biblioteconomía y Documentación, Medicina, Química , Biología, Psicología y Física, y se realizaron seis búsquedas en estas bases de datos de las que seleccionamos 450 referencias bibliográficas (75 por área) proporcionando un total de 2.077 descriptores. El 38,1% de los descriptores asignados a dichos registros aparece en el título, resumen o en el título y resumen a la vez. Como estructuras sintagmáticas descubrimos que el 41,9% de los descriptores son sustantivos, el 32,3% sustantivo+adjetivo, y el 11,8% son sustantivo+de+sustantivo, quedando solamente un 14% para otras estructuras. Y por último, se han encontrado artículos con escasas páginas y descriptores, documentos amplios y con pocos descriptores asignados, artículos con pocas páginas y una cantidad importante de descriptores, y documentos con un número ele vado tanto de páginas como de descriptores. Se concluye que los títulos, cuando no son lo suficientemente precisos y los resúmenes no están bien elaborados, no son fuentes definitivas para la extracción de conceptos; en segundo lugar, que la estructura sintagmática más común es el sustantivo seguido de sustantivo+adjetivo y sustantivo+de+sustantivo; y tercero, que no se aprecia ninguna relación entre el número de páginas de un documento y la cantidad de descriptores asignados.

Palabras clave


Análisis de descriptores; análisis lingüístico; análisis estadístico; indización automática; bases de datos del CSIC

Texto completo:


PDF


Copyright (c) 1997 Consejo Superior de Investigaciones Científicas (CSIC)

Licencia de Creative Commons
Esta obra está bajo una licencia de Creative Commons Reconocimiento 4.0 Internacional.


Contacte con la revista redc.cchs@cchs.csic.es

Soporte técnico soporte.tecnico.revistas@csic.es