Titulación automática de preguntas en encuestas electorales
DOI:
https://doi.org/10.3989/redc.2016.2.1236Palabras clave:
Minería de textos, recuperación de información, filtrado, clasificación, resumen y visualización, titulación automática, extracción de información, encuestas de opiniónResumen
Este artículo describe el trabajo realizado para la generación automática de los títulos de las preguntas pertenecientes a las encuestas de opinión que existen en las bases de datos del CIS (Centro de Investigaciones Sociológicas). Dentro del contexto del CIS, el título de una pregunta debe cumplir dos requisitos: desde el punto de vista de la forma, debe ser gramaticalmente correcto y tener un estilo similar a los ya existentes; y, desde el punto de vista del contenido, debe albergar el tema de la pregunta y las distintas categorías de respuesta. Estas restricciones en cuanto a la forma y al contenido de los títulos desaconsejan el uso de técnicas empleadas en problemas similares, como el resumen automático o aprendizaje automático con corpus de entrenamiento, a favor de una metodología basada en el análisis y conocimiento del dominio. Para ilustrar el análisis y la estrategia de resolución del problema seguidos, hemos seleccionado las preguntas relacionadas con temas electorales, debido a la importancia estratégica y a la especialización del CIS en este tipo de encuestas. Se describe en detalle el procedimiento seguido y la evaluación de los resultados, valorando tanto los aspectos cualitativos como los cuantitativos. La evaluación muestra que el 88,73% de los títulos generados cumplen estrictamente con los requisitos de forma y contenido impuestos por el CIS, lo que supone un ahorro en el trabajo manual del personal cualificado de la institución.
Descargas
Citas
Cui, H.; Kan M.; Chua T. (2007). Soft pattern matching models for definitional question answering. ACM Transactions on Information Systems, vol. 25(2), pp. 1-30. http://dx.doi.org/10.1145/1229179.1229182
Gallardo Pérez, C.; Carde-osa, J. (2011). Knowledge extraction for question titling. In Proceedings of the 9th international conference on Flexible Query Answering Systems (FQAS'11), Springer-Verlag, Berlin, Heidelberg, vol. 7022, pp. 119-127. http://dx.doi.org/10.1007/978-3-642-24764-4_11
García Gutiérrez, A. (2014). Análisis documental de noticias de prensa en sistemas de información factual. Revista Espa-ola de Documentación Científica, vol 37(2). http://dx.doi.org/10.3989/redc.2014.2.1094 http://dx.doi.org/10.3989/redc.2014.2.1094
Goldstein, J.; Kantrowitz, M.; Mittal, V.; Carbonell, J. (1999). Summarizing text documents: Sentence selection and evaluation metrics. Proceedings of the 22Nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Berkeley, California, USA. 121-128. http://dx.doi.org/10.1145/312624.312665
Hung, S.; Lin, C.; Hong, J. (2010). Web mining for event-based commonsense knowledge using lexico-syntactic pattern matching and semantic role labeling. Expert Systems with Applications, vol. 37(1), pp. 341-347. http://dx.doi.org/10.1016/j.eswa.2009.05.060
Jin, R.; Hauptmann, E. G. (2001). Headline generation using a training corpus. Proceedings of the Second International Conference on Computational Linguistics and Intelligent Text Processing, CICLING. Lecture Notes on Computer Science, Berlin: Springer-Verlag, vol. 2004: 208-215.
Jin, R.; Hauptmann, A. G. (2002). A new probabilistic model for title generation. Proceedings of the 19th International Conference on Computational Linguistics, vol. 1. http://dx.doi.org/10.3115/1072228.1072365
Liu, K.; Chapman, W. W.; Savova, G.; Chute, C. G.; Sioutos, N.; Crowley, R. S. (2011). Effectiveness of lexico-syntactic pattern matching for ontology enrichment with clinical documents. Methods of Information in Medicine, vol. 50(5), pp. 397-407. http://dx.doi.org/10.3414/ME10-01-0020 PMid:21057720 PMCid:PMC3125434
Martínez-Ávila, D.; San Segundo, R.; Zurian, F. (2014). Retos y oportunidades en organización del conocimiento en la intersección con las tecnologías de la información. Revista Espa-ola de Documentación Científica, vol. 37(3). http://dx.doi.org/10.3989/redc.2014.3.1112
Spärck Jones, K. (2007). Automatic summarising: The state of the art. Information Process.Management, vol. 43(6), pp. 1449-1481. http://dx.doi.org/10.1016/j.ipm.2007.03.009
Spasic, I.; Sarafraz, F.; Keane, J. A.; Nenadic, G. (2010). Medication information extraction with linguistic pattern matching and semantic rules. Journal of the American Medical Informatics Association, vol. 17(5), pp. 532-535. http://dx.doi.org/10.1136/jamia.2010.003657 PMid:20819858 PMCid:PMC2995671
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2016 Consejo Superior de Investigaciones Científicas (CSIC)

Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
© CSIC. Los originales publicados en las ediciones impresa y electrónica de esta Revista son propiedad del Consejo Superior de Investigaciones Científicas, siendo necesario citar la procedencia en cualquier reproducción parcial o total.
Salvo indicación contraria, todos los contenidos de la edición electrónica se distribuyen bajo una licencia de uso y distribución “Creative Commons Reconocimiento 4.0 Internacional ” (CC BY 4.0). Consulte la versión informativa y el texto legal de la licencia. Esta circunstancia ha de hacerse constar expresamente de esta forma cuando sea necesario.
No se autoriza el depósito en repositorios, páginas web personales o similares de cualquier otra versión distinta a la publicada por el editor.