Análisis de los descriptores de diferentes áreas del conocimiento indizadas en bases de datos del CSIC. Aplicación a la indización automática

Autores/as

  • Isidoro Gil Leiva Departamento de información y Documentación. Universidad de Murcia
  • José V. Rodríguez Muñoz Departamento de información y Documentación. Universidad de Murcia

DOI:

https://doi.org/10.3989/redc.1997.v20.i2.589

Palabras clave:

Análisis de descriptores, análisis lingüístico, análisis estadístico, indización automática, bases de datos del CSIC

Resumen


Se estudia el valor de los títulos y resúmenes de los artículos científicos como fuentes suministradoras de términos para la indización de los documentos en seis áreas del conocimiento indizadas en las bases de datos ISOC, IME e ICYT del CSIC. Asimismo, se examina la estructura sintagmática de los términos de indización hallados en el campo «Descriptores», y la posible relación entre el número de descriptores de un documento con la cantidad de páginas del mismo. Para tales fines se seleccionaron las áreas del conocimiento de Biblioteconomía y Documentación, Medicina, Química , Biología, Psicología y Física, y se realizaron seis búsquedas en estas bases de datos de las que seleccionamos 450 referencias bibliográficas (75 por área) proporcionando un total de 2.077 descriptores. El 38,1% de los descriptores asignados a dichos registros aparece en el título, resumen o en el título y resumen a la vez. Como estructuras sintagmáticas descubrimos que el 41,9% de los descriptores son sustantivos, el 32,3% sustantivo+adjetivo, y el 11,8% son sustantivo+de+sustantivo, quedando solamente un 14% para otras estructuras. Y por último, se han encontrado artículos con escasas páginas y descriptores, documentos amplios y con pocos descriptores asignados, artículos con pocas páginas y una cantidad importante de descriptores, y documentos con un número ele vado tanto de páginas como de descriptores. Se concluye que los títulos, cuando no son lo suficientemente precisos y los resúmenes no están bien elaborados, no son fuentes definitivas para la extracción de conceptos; en segundo lugar, que la estructura sintagmática más común es el sustantivo seguido de sustantivo+adjetivo y sustantivo+de+sustantivo; y tercero, que no se aprecia ninguna relación entre el número de páginas de un documento y la cantidad de descriptores asignados.

Descargas

Los datos de descargas todavía no están disponibles.

Descargas

Publicado

1997-06-30

Cómo citar

Gil Leiva, I., & Rodríguez Muñoz, J. V. (1997). Análisis de los descriptores de diferentes áreas del conocimiento indizadas en bases de datos del CSIC. Aplicación a la indización automática. Revista Española De Documentación Científica, 20(2), 150–160. https://doi.org/10.3989/redc.1997.v20.i2.589

Número

Sección

Estudios