En este estudio se analiza el modo en que los usuarios realizan tareas de búsqueda y recuperación de información mediante consulta en la Biblioteca Digital Hispánica, distinguiendo grupos de usuarios en función de su distinto comportamiento informacional. Para ello se emplean los ficheros log recopilados por el servidor durante un año y se cotejan distintos algoritmos de agrupamiento. Se observa que el algoritmo k-means es un procedimiento de agrupamiento adecuado al análisis de extensos ficheros log de consultas en bibliotecas digitales. En el caso de la Biblioteca Digital Hispánica se distinguen tres grupos de usuarios cuyo comportamiento informacional distintivo se describe.
This study analyzes how users perform information retrieval tasks when introducing queries to the Hispanic Digital Library. Clusters of users are differentiated based on their distinct information behavior. The study used the log files collected by the server over a year and different possible clustering algorithms are compared. The k-means algorithm is found to be a suitable clustering method for the analysis of large log files from digital libraries. In the case of the Hispanic Digital Library the results show three clusters of users and the characteristic information behavior of each group is described.
La presencia de las bibliotecas en la Web es cada vez más frecuente, pues permite el acceso remoto a un número creciente de colecciones digitalizadas y a los metadatos incorporados a sus documentos, favoreciendo en gran medida la difusión de sus fondos. Sin embargo, la puesta a disposición de recursos en línea plantea el reto de la adecuación entre el proceso técnico llevado a cabo internamente en las bibliotecas y las necesidades de los usuarios externos a la misma. El tratamiento documental comporta una organización y disposición de los fondos que suele diferir de la estructura del conocimiento que posee el usuario, pudiendo dificultar en ocasiones la tarea de localización y acceso a la documentación deseada.
Para superar este desajuste, además de poner a disposición del usuario diversas herramientas que le ayuden en su tarea, como los buscadores, es muy importante comprender el modo de actuar de los usuarios en su interacción con las bibliotecas digitales. De este modo podremos no solo eliminar o minimizar los obstáculos que encuentren al tratar de acceder a la documentación deseada, sino que podremos mejorar el funcionamiento y eficiencia de los sistemas de recuperación. Con interfaces mejor adaptadas al modo de proceder de los usuarios, los sistemas pueden recuperar la información buscada de manera más rápida y precisa.
El análisis que presentamos aquí se enmarca, pues, dentro del campo del comportamiento informacional, entendido como el estudio de cualquier experiencia de un individuo o grupo de individuos relacionada con la necesidad, búsqueda, gestión, difusión y uso de la información en diferentes contextos (González Teruel y Barrios Cerrejón,
Dentro de este marco general, en este estudio abordaremos específicamente el modo en que los usuarios realizan búsquedas en una biblioteca digital concreta, la Biblioteca Digital Hispánica (
Emplearemos para ello los ficheros log de uno de los servidores utilizados por la Biblioteca Digital Hispánica (BDH en adelante). Existe una amplia literatura que avala la utilidad del análisis de ficheros log como procedimiento para comprender el comportamiento informacional de los usuarios.
En cuanto que registran las interacciones producidas entre las personas y los sistemas de información accesibles en Internet (Peters,
Cuatro ámbitos pueden destacarse en la literatura sobre este tema: el sanitario, el académico y el empresarial, además de las unidades de información o sistemas de recuperación de información –que abordaremos después-. En cuanto al primero, son objeto de interés reciente el comportamiento de enfermos y pacientes (Yom-Tov y otros,
En relación al segundo, se han realizado estudios sobre sedes electrónicas de universidades (Wang y otros,
En estos estudios se hace hincapié en los patrones de navegación (Guerbas y otros,
En relación al empleo de ficheros log para la observación del comportamiento de los usuarios en unidades de información o en sistemas de recuperación de información, este tipo de datos ha sido importante fuente de información en un amplio abanico de estudios que van desde los buscadores genéricos (Jansen y Spink,
En el ámbito bibliotecario, de especial interés para este trabajo, destaca el análisis de los servicios ofrecidos en las unidades correspondientes (Leeder y Lonn,
La implantación de nuevos servicios aprovechando las posibilidades tecnológicas ocupa también un lugar destacado en la literatura. Entre estos estudios, pueden apuntarse el desarrollo de un chat (Berndt-Morris y Minnis,
Las colecciones y los recursos disponibles son igualmente objeto de interés, como las bases de datos accesibles (Mbabu y otros,
Los objetivos finales de estos artículos inciden en la mejora de los servicios y de la experiencia del usuario (Tobias y Blair,
Referente al proceso de búsqueda y recuperación de información por parte de los usuarios, objeto específico de este estudio, sobresale el análisis de las consultas (Dempsey y Valenti,
También a raíz de los datos proporcionados por los ficheros log de las consultas realizadas por los usuarios se han tratado de inferir aspectos ajenos estrictamente al proceso de recuperación, como son los objetivos o las tareas en los que se enmarcan las consultas (Strohmaier y Kroll,
Para alcanzar los objetivos señalados, estas investigaciones analizan muy diversos aspectos del uso: términos de búsqueda (Zhang y Zhao,
Sin embargo, pocos han sido los esfuerzos por descubrir grupos de usuarios en base a su comportamiento con los sistemas en línea (Chapman,
Así pues, el objetivo principal de este estudio consiste en descubrir grupos de usuarios en función del comportamiento mostrado al afrontar tareas de búsqueda y recuperación de información en la Biblioteca Digital Hispánica mediante formulación de consultas, a partir de los ficheros log de tales actividades correspondientes al año 2013. La interfaz no ha sufrido cambios desde entonces y el sistema apenas ha incorporado algunas colecciones nuevas (rollos de pianola, por ejemplo), por lo que los resultados son totalmente aplicables en la actualidad. El hecho de considerar información relativa a un año en su integridad evita la incorporación de efectos estacionales indeseados en el análisis.
Los ficheros log recopilados incluyen, tras el proceso de limpieza, un total de 195.497 sesiones de consulta, cantidad equiparable a la empleada en otros estudios sobre comportamiento de búsqueda en bibliotecas digitales: en la New Zealand Digital Library se analizaron 251.878 consultas, considerando que una sesión puede abarcar varias consultas (Mahoui y Cunningham,
Como se ha indicado anteriormente, el empleo de ficheros log referentes a episodios de recuperación de información comporta tres posibles niveles de análisis (Jansen,
El concepto de sesión y la delimitación de su duración puede ser diverso en función del contexto y del objetivo del análisis (Mahoui y Cunningham,
Aunque no podamos analizar las acciones realizadas por los usuarios durante la visualización, debido a la estructuración seguida en la BDH para la recopilación de datos log, el tiempo ocupado en estas tareas se añade a la sesión de consulta correspondiente, pues esta acción no cierra la sesión en curso. Este hecho implica que la sesión de consulta considerada aquí aporta información añadida sobre el proceso de búsqueda y recuperación en su totalidad, más allá de la formulación de la consulta y la consulta de la lista de resultados.
Por su parte, partiremos de un concepto de consulta (Jansen y Pooch,
Una particularidad del sistema de recuperación de información de la BDH consiste en la posibilidad de filtrar los resultados obtenidos por cualquier modalidad de consulta, gracias a la inclusión de seis filtros en el sistema: acceso temático, tipo de material, colecciones destacadas, autor, lengua y año. Ello permite al usuario seleccionar características añadidas a la documentación aportada inicialmente por el sistema en respuesta a la consulta formulada.
El análisis del empleo de filtros por parte de los usuarios es de especial interés para los responsables de la BDH con el fin de complementar los datos que sobre ellos aporta el software de análisis web utilizado. En consecuencia, será objetivo prioritario de este estudio el análisis del empleo de los distintos filtros disponibles, incluyendo los diversos filtros como los factores principales para la constitución de los diversos grupos de usuarios.
En función de los objetivos expuestos anteriormente y de la definición de sesión adoptada, será precisamente la sesión el eje nuclear que nos permitirá delimitar comportamientos distintos en los usuarios. En consecuencia, nos detendremos inicialmente en aquellos aspectos cuantitativos relativos a las sesiones detectadas que configurarán, a su vez, los factores que permitan caracterizar los distintos grupos de usuarios: duración, modalidad de consulta y filtros empleados.
Con el objeto de conocer al mismo tiempo las características generales del sistema analizado, mostraremos también el número de sesiones y su distribución por día y mes del año, aunque estos datos no se hayan empleado en el estudio de grupos de usuarios, objetivo primero de este estudio.
Una vez determinados los grupos de usuarios de la BDH, analizaremos los términos presentes en las consultas formuladas por los miembros de cada grupo, con el fin de mostrar algunas opciones de mejora del sistema de recuperación en función de su modo de proceder.
La metodología empleada para desvelar grupos de usuarios con características semejantes en función del comportamiento mostrado al realizar consultas, tal como el sistema los ha registrado en los ficheros log, es de carácter cuantitativo, entendiendo bajo esta denominación la combinación de procedimientos esencialmente matemáticos y estadísticos que permiten alcanzar respuestas, entre otros ámbitos, en la investigación social y del comportamiento (Vogt,
Pueden distinguirse cuatro fases en el desarrollo de este tipo de estudios (Adèr y otros,
Recopilación de datos. Como se ha señalado previamente, los responsables de la BDH han facilitado los 365 ficheros de texto plano recogidos día a día por el servidor Solr que gestiona el sistema de recuperación de información de este organismo durante el año 2013. Dado que no es el único servidor involucrado durante una visita de un usuario al sitio web de la BDH, no es posible analizar el proceso íntegro seguido por los usuarios, sino tan solo las actividades de consulta en el buscador.
Procesamiento de datos. Con el fin de preservar el anonimato en la identidad de los usuarios, los responsables de la BDH sometieron los ficheros a un proceso de modificación de las direcciones IP en cada uno de los archivos que recoge la actividad producida en el servidor durante un día, al tiempo que se han reunido en una única línea todos los valores adoptados por las variables durante la consulta. Así, cada sesión de consulta queda reflejada en un único estado final. Ello impide abordar las sesiones de consulta como un proceso compuesto de diversas acciones y, por otra parte, implica que puede aparecer una misma IP en dos días distintos sin que ello necesariamente suponga un mismo usuario, equipo o lugar de conexión con la BDH. De ahí que el análisis sea de carácter estático, sin entrar en la dinámica del proceso de consulta, y que nuestro concepto de sesión incorpore un límite temporal de 24 horas. De esta manera, cada dirección IP durante un cierto día permite identificar al mismo usuario que ha accedido al sistema.
Limpieza de datos. Una vez procesados los datos, cada uno de los ficheros con la actividad diaria se incorporó, mediante el software libre de tratamiento estadístico R (
Análisis de datos. Esta cuarta fase abarca tanto un análisis inicial del número de sesiones producidas por día y mes del año, con el objeto de tener una visión global del sistema, como el estudio de los ocho factores o parámetros cuantitativos disponibles para establecer posteriormente los distintos grupos de usuarios:
Duración de la sesión.
Tipología de consulta empleada en la sesión: sencilla o avanzada.
Filtros empleados en la sesión, de los seis posibles: acceso temático, tipo de material, colecciones destacadas, autor, lengua y año.
Para ello se elaboraron diversos scripts en lenguaje R. Por último, se sometieron los valores de estos ocho parámetros para cada una de las 195.497 sesiones de consulta al algoritmo k-means de agrupamiento, analizándose los resultados y características de cada uno de los grupos obtenidos. Posteriormente se cotejó este algoritmo de agrupamiento con otros posibles procedimientos de clustering para observar sus diferencias cuando manejamos volúmenes grandes de datos, como es el caso de las consultas realizadas a una biblioteca digital de carácter nacional. Para el procesamiento de los distintos algoritmos de agrupamiento se emplearon los scripts disponibles en diversos paquetes del lenguaje R.
Los resultados del estudio se organizan en los siguientes apartados: en primer lugar, se presentan las características generales de las sesiones de consulta producidas durante el año, a fin de tener una visión general del sistema; a continuación, se muestran los valores obtenidos –con carácter global- en los distintos factores o parámetros empleados posteriormente en el cálculo de los grupos de usuarios (duración de las sesiones, tipología de consulta empleada en las mismas y porcentajes de utilización de los filtros por parte de los usuarios). Por último, se aborda la determinación de los grupos de usuarios y sus características más destacadas.
De las 195.497 sesiones de consulta efectuadas en la BDH durante el año, se han obtenido los siguientes valores medios:
Media de sesiones por día: 535,61
Media de sesiones por mes: 16291,42
Los usuarios mantienen un nivel de actividad parecido durante todo el año, con un cierto aumento durante los últimos cuatro meses del año. La máxima actividad se produce en el mes de septiembre (un 11,03%) y el mes de julio presenta la mínima actividad del año con un 6,47%.
Considerando las sesiones durante la semana, se produce un nivel de actividad semejante durante todos los días, con un ligero descenso durante el fin de semana. Los lunes registran el nivel máximo de actividad (un 16,12%), mientras que los sábados presentan el nivel mínimo con un 10,83%.
Las sesiones presentan, en cuanto a su duración, valores en todo el intervalo comprendido entre un mínimo de 1 segundo y un valor máximo de 24 horas. La mitad de las sesiones presentan una duración menor o igual a 7,12 minutos, con una duración media de 102,20 minutos. Este valor medio tan elevado se justifica por el número significativo de sesiones con duraciones muy elevadas (1057, en concreto, duran entre 23 y 24 horas). En la
Son posibles dos modalidades de consulta en las sesiones consideradas: consulta sencilla y consulta avanzada. Predominan en el corpus, con un 64,90%, las consultas sencillas en las que el usuario se limita a introducir una cadena de caracteres en el área de texto desarrollada al efecto, frente al 35,10% que ha optado por las consultas avanzadas durante la sesión, en las que el usuario señala valores en relación a algunos de los puntos de acceso del catálogo (autor, título o tipo de documento, por ejemplo).
Como dato complementario, en la
El sistema de recuperación de información empleado en la BDH permite restringir los resultados iniciales mostrados ante una consulta del usuario (ya sea sencilla o avanzada), mostrando en el lateral izquierdo de la pantalla seis filtros desplegables: “acceso temático”, “tipo de material”, “colecciones destacadas”, “autor”, “lengua” y “año”. De este modo, el usuario puede –sin necesidad de reformular la consulta- discernir estas características añadidas en los documentos hallados por el sistema en respuesta a su pregunta.
Los datos muestran que, de las 195.497 sesiones consideradas, en 116.216 sesiones (un 59,45% de los casos) los usuarios no utilizaron esta herramienta, mientras que en las 79281 sesiones restantes –lo que supone un 40,55% del total- los usuarios se sirvieron de esta herramienta para precisar los resultados deseados. En la
De la tabla se concluye que el filtro más empleado por los usuarios fue el de “tipo de material” (en un 19,71% de las sesiones), seguido a bastante distancia por el filtro de “colecciones destacadas” (un 10,46%) y el filtro de “acceso temático” (un 7,93%). De igual forma, resalta la muy escasa utilización de los filtros de “año”, “autor” y “lengua”, que en ningún caso alcanzan un 2,5% de las sesiones.
La partición de las 195.497 sesiones en grupos se realizará mediante la aplicación del algoritmo k-means, debido a que no existen factores o características irrelevantes o que introduzcan ruido (Amorim y Mirkin,
Sus ventajas lo han convertido en uno de los algoritmos más frecuentemente empleados (Steinbach y otros,
SSE calcula la suma de los cuadrados de las distancias entre cada elemento de un grupo y su centroide, de manera que un número apropiado de grupos sería aquel en el que la disminución del SSE es más drástica (Peeples,
En nuestro caso, como puede observarse en la
En efecto, la diferencia entre N=2 y N=3 (en relación a la suma de cuadrados de las distancias intra-grupos) es mayor que la diferencia entre N= 3 y N= 4 (las cifras exactas pueden consultarse en la
Una vez determinado que tres es el número de grupos inicialmente más adecuado para nuestro corpus de datos, sometemos los valores binarios (aplicación -1- o no -0- ) de los 7 factores (6 filtros y la consulta avanzada) más el tiempo ocupado por cada una de las 195.497 sesiones al algoritmo k-means conforme al modelo clásico (MacQueen,
Emplearemos dos criterios internos (intra-grupos) y dos criterios externos (inter-grupos) para comparar diversas posibilidades de particiones próximas entre sí (dos, tres, cuatro y cinco grupos mediante k-means):
Criterios internos: índice Calinski-Harabasz e índice Silhouette
Criterios externos: índice Pearson Hubert’s Gamma e índice Single Link Average.
Estos criterios, a los que se añade el índice SSE empleado anteriormente, nos permitirán validar la elección adoptada. Los criterios internos proporcionan información sobre el grado de cohesión, relación o semejanza entre los elementos dentro de cada grupo. Los criterios externos, por su parte, indican en qué medida los grupos poseen límites claros con respecto a los demás, cuantificando el nivel de desemejanza o dispersión entre los grupos. Un determinado agrupamiento será mejor cuanta mayor cohesión o semejanza exista entre los elementos de cada grupo y, a la vez, presente una mayor desemejanza entre los grupos. En consecuencia, cuanto mayor valor posea un cierto agrupamiento, en relación a cualquiera de los criterios internos o externos, mejor partición se considera en relación a dicho índice (Maulik y Bandyopadhyay,
El índice Calinski-Harabasz se basa en la relación entre la varianza entre los grupos y la varianza dentro de los grupos, de manera que un valor mayor del cociente indica una mejor partición (Calinski y Harabasz,
En cuanto a los criterios externos, la versión de Pearson del coeficiente Gamma de Hubert halla la correlación entre las distancias entre todos los pares de elementos y el vector 0-1, donde 0 significa mismo grupo y 1 significa grupos o clusters diferentes (Halkidi y otros,
Como puede observarse en la tabla, las particiones en 2, 4 y 5 grupos presentan un mínimo en al menos un criterio: el agrupamiento en 2 conjuntos posee el valor mínimo en Calinski-Harabasz y en Single Link; el agrupamiento en 4 conjuntos o clusters posee el valor mínimo en el índice Pearson Hubert Gamma; la partición en 5 grupos posee el valor mínimo en el índice Silhouette y en el índice Pearson Hubert Gamma (junto al agrupamiento en 4 clusters).
De estos resultados se concluye que la partición en tres grupos no solo posee el máximo valor en el índice SSE, sino que no presenta tampoco ningún mínimo en los cuatro índices restantes. En consecuencia, se confirma la partición en tres grupos como una solución apropiada al corpus de datos.
El análisis cuantitativo de los tres grupos en relación a los ocho parámetros considerados en el algoritmo de agrupamiento se estructura en los siguientes puntos esenciales, pudiéndose consultar un resumen en la
El primer grupo (que podemos denominar de usuarios experimentados) se caracteriza por los siguientes aspectos:
Es el grupo más numeroso (172.402 sesiones) al acoger el 88,19% del total de 195.497 sesiones y, en consecuencia, agrupa la mayoría de los usuarios de la BDH.
Este grupo engloba los usuarios cuyas sesiones de consulta ocupan el menor tiempo de conexión. En relación a este factor, los usuarios se conectan una media de 24 minutos con el buscador de la BDH, con un máximo de 237 minutos.
Necesidad informativa centrada en la localización de documentos.
Aproximadamente un 35% de este grupo utiliza la búsqueda avanzada, lo que supone un porcentaje igual a la media general.
El filtro más frecuentemente utilizado por los usuarios de este grupo es el filtro “tipo de material” (un 20% de las sesiones), seguido del filtro de colecciones (11%) y del filtro temático (8%), en porcentajes semejantes a la media general.
En el segundo grupo (que podemos denominar de usuarios poco experimentados) pueden destacarse los siguientes aspectos:
Es el grupo menos numeroso (7.781 sesiones) con un 3,98% del total de 195.497 sesiones, por lo que agrupa a una minoría de los usuarios de la BDH.
Este grupo incluye las sesiones más prolongadas; los usuarios se conectaron un mínimo de 799 minutos (13 horas) y un máximo de 1440 minutos (24 horas), con una media de 1147 minutos (19 horas).
Necesidad informativa centrada en la visualización de documentos (para su análisis, copia y/o impresión).
Aproximadamente en un 40% de estas sesiones se utilizó la búsqueda avanzada, en un porcentaje superior al resto de los grupos y a la media general.
El filtro más frecuentemente utilizado por los usuarios de este segundo grupo es el filtro “tipo de material”, aunque con un porcentaje inferior al grupo 1 (un 18% de las sesiones frente al 20% de las sesiones del grupo 1), seguido de los filtros temático y de autor (un 11%) y del filtro de colecciones (8%). Hay, en consecuencia, un aspecto distintivo en este grupo consistente en un aumento en el empleo de los filtros de autor (que pasa del 2% general al 11%) y temático (que pasa del 8% general al 11%) y en una disminución del filtro de colecciones con respecto al primer grupo y a la media general (pasando del 10% al 8%). También se observa un aumento del empleo del filtro de lengua (0,9%, frente a un 0,6% en el total del corpus).
El tercer grupo (que podemos denominar de usuarios muy experimentados) se caracteriza por los siguientes aspectos distintivos:
Es un grupo poco numeroso (15314 sesiones), con un 7,83% del total de sesiones, lo que muestra la uniformidad general en el comportamiento de los usuarios de la BDH en tareas de consulta, agrupados mayoritariamente en el primer grupo.
Los usuarios de este tercer grupo se caracterizan por sesiones prolongadas, entre 238 minutos (casi 4 horas) y 798 minutos (aproximadamente 13 horas), con una media de 451,3 minutos (7,5 horas).
Necesidad informativa centrada en la visualización de documentos (para su análisis, copia y/o impresión).
Los usuarios de este grupo son los que menos utilizaron la búsqueda avanzada durante sus consultas (un 32% de las sesiones, frente a un 40% en el grupo 2 y a un 35% en el grupo 1).
El filtro más frecuentemente utilizado por los usuarios de este grupo es también el filtro “tipo de material”, en un porcentaje (18,5%) parecido al resto de los grupos y a la media general (19,7%). A continuación figuran el filtro de colecciones (8%) y el filtro temático (un 5,6%). Este grupo se caracteriza, pues, por una disminución en el empleo de los filtros temático y de colecciones frente a la media general (8% y 10,5% respectivamente).
Una explicación para las sesiones prolongadas de los grupos segundo y tercero consiste en que las necesidades informativas de estos usuarios no se limitan a la búsqueda y localización de determinados textos o ejemplares de documentos conservados en la Biblioteca Nacional de España (como en el primer grupo), sino que se centra en la posterior visualización o consulta de las copias digitalizadas de tales documentos, bien para su análisis o estudio, bien para su copia y/o impresión, o para ambas tareas. Como se señaló en la introducción, la visualización o acceso a los documentos es gestionada por un servidor distinto al empleado en las consultas, pero siempre que el usuario regresa a la página de resultados tras la visualización (para ver otros documentos del listado o para acceder al contenido de otro u otros documentos relevantes recuperados), dicha acción quedará reflejada en el servidor empleado en la consulta como parte de su sesión, englobando así el tiempo empleado en la visualización. Por otra parte, Park y Lee (Park y Lee,
En la
Por otra parte, el análisis mediante clustering jerárquico de los filtros ha permitido obtener el nivel de correlación entre los filtros en cada uno de los tres grupos de usuarios, indicador de la utilización simultánea de los mismos. De dicho análisis se desprende también que la búsqueda avanzada no está relacionada ni con la utilización de ciertos filtros ni con la consulta de determinadas colecciones, por lo que su empleo puede considerarse independiente de ellas.
Se ha destacado en diversas ocasiones que los usuarios, cuando se enfrentan a un sistema de recuperación de información, suelen realizar consultas sencillas con un número de términos pequeño (Markey,
En el caso del OPAC de una biblioteca universitaria, por el contrario, se ha señalado una utilización similar de ambas modalidades de consulta, fenómeno explicado porque los usuarios, cuanto mayor conocimiento de la información que están buscando y más familiaridad con el OPAC poseen, optan en mayor medida por las búsquedas sencillas (Villén-Rueda y otros,
El hecho de que las colecciones de la BDH sean especializadas y posean un alto valor histórico restringe en buena medida los usuarios potenciales, que en mayor proporción saben con precisión qué documentación buscan y qué biblioteca la conserva. En consecuencia, el carácter más especializado de la documentación conservada y la mayor proporción de usuarios con un conocimiento previo de sus necesidades informativas y del sistema de recuperación entre los que acceden a esos fondos permite justificar la preponderancia de las consultas sencillas (casi un 65%) sobre las consultas avanzadas (un 35%), tanto con carácter general como específicamente en el grupo 1 que mayoritariamente los acoge.
Es por ello que hemos empleado para designar al grupo 1 de usuarios, el más numeroso y con iguales valores a los generales, la denominación de usuarios experimentados. Los grupos restantes confirman esta argumentación: el segundo grupo de usuarios, menos experimentado, debería presentar, en consecuencia, un porcentaje mayor de consultas avanzadas, como así es (con un 39,35%); al tercer grupo de usuarios, muy experimentados, le correspondería un menor empleo de consultas avanzadas, como en efecto sucede (con un 32,17%).
El empleo de filtros por parte de los distintos grupos confirma el razonamiento basado en el grado de conocimiento de los documentos buscados y la experiencia previa en el empleo del sistema de recuperación de la BDH, aunque con menor intensidad. Los valores globales dan un 40,55% de utilización de algún filtro, frente a un 59,45% de sesiones en que no se utilizó ningún filtro.
Tanto el primer grupo (la mayoría de los usuarios, con experiencia y conocimientos previos) como el segundo grupo (una minoría de usuarios, menos experimentados) presentan un grado de utilización parejo a estos valores generales: un 41,05% de las sesiones del grupo 1 y un 40,03% de las sesiones del grupo 2 utilizaron alguno de los filtros, no percibiéndose una diferencia significativa. El segundo grupo, sin embargo, se distingue por un mayor empleo de los filtros temático y de autor que el grupo 1 y que los usuarios de la BDH en general, lo que reflejaría unas necesidades informativas menos delimitadas por parte de este grupo de usuarios.
Por su parte, el tercer grupo (de usuarios más experimentados que la media) presenta un grado significativamente menor de empleo de algún filtro (un 35,24%) y específicamente de los filtros temático y de colecciones, acorde con una concreción mayor del documento deseado y una menor necesidad de herramientas que permitan restringir la búsqueda.
Estos datos confirman los resultados obtenidos por Ferl y Millsap, quienes destacan que una proporción mucho mayor de estudiantes (usuarios menos experimentados) realizaron búsquedas por temas que el profesorado y el personal de la biblioteca de la Universidad de California (usuarios más experimentados) (Ferl y Millsap,
En relación a la duración de las sesiones, muy diversos factores influyen en una estancia más o menos prolongada por parte de los usuarios, pudiéndose destacar el contenido del sitio web, la tarea que afronta el usuario (en la que se enmarca la búsqueda de información) y las características del usuario (Lalmas y otros,
El tiempo transcurrido en un cierto sitio web depende en buena medida de la clase de contenidos que oferte. Se ha constatado que los sitios web a los que se acude a consultar noticias presentan sesiones mucho más cortas que los sitios que involucran la realización de procesos o actividades durante la visita, como el comercio electrónico o las redes sociales (Benevenuto y otros,
La tarea que se desarrolle en el momento de la visita repercute igualmente en el tiempo de permanencia en el sitio web. Un usuario con una necesidad informativa específica (como la comprobación de recepción de un correo) ocupa menos tiempo que si el usuario navega por mera curiosidad en un sitio web sobre su afición favorita (Wang y otros,
Por este motivo caracterizamos los grupos 2 y 3 (con sesiones más prolongadas) con necesidades informativas más complejas (incluyendo la visualización de documentos), mientras que las sesiones más cortas del grupo 1 se explican bien si las necesidades informativas de sus usuarios son más sencillas o específicas, limitándose a la búsqueda y localización de documentos.
Otro gran grupo de factores que afectan a la duración de las sesiones tienen que ver con las aptitudes y actitudes del usuario que acude a un sitio web. Si un usuario se topa, por ejemplo, con dificultades en la interacción con el sistema, por falta de comprensión de la estructura y organización de la información que presenta el sitio web, la sesión será más prolongada que si el usuario conoce bien cómo proceder para resolver su necesidad. De igual forma, un usuario distraído o que está involucrado simultáneamente en diversas tareas tendrá sesiones más largas que un usuario concentrado o interesado en la información disponible en el sitio web (Huang y White,
Así pues, este grupo de factores explicaría bien las sesiones más prolongadas en el grupo 2 (caracterizándolo como poco experimentados) frente a las sesiones más cortas del grupo 3 (muy experimentados, aunque involucrados en tareas más complejas).
Como puede observarse en la
Los términos más frecuentes en dichas consultas (eliminadas las palabras vacías) muestran el carácter de los fondos predominantes de la BDH, directamente relacionados con los objetivos prioritarios de la Biblioteca Nacional, de manera que los usuarios solicitan primordialmente documentación de carácter histórico relativo a España (los términos ‘historia’ y ‘España’ destacan entre los más habituales en todos los grupos).
Las parejas de términos que en mayor número aparecen simultáneamente en las consultas (eliminadas las palabras vacías) permiten precisar mejor las necesidades informativas de los usuarios. Considerando los co-términos más frecuentes en los tres grupos, predominan claramente las consultas sobre personas, lugares geográficos y obras.
Esta tipología contrasta con la reducida utilización de la búsqueda avanzada (un tercio de consultas aproximadamente), modalidad que permitiría al usuario precisar mejor su necesidad informativa. En parte este hecho puede estar motivado por una falta de adecuación entre los campos que se ofrecen al usuario en la consulta avanzada y la naturaleza de la necesidad informativa. Por ejemplo, si el usuario busca información sobre una determinada persona, no necesariamente está interesado en las obras de las que sea autor. Este hecho, unido a que el usuario raramente modifica la configuración inicial de las herramientas puestas a su disposición (Jones y otros,
Una recomendación, pues, que permitiría mejorar la experiencia del usuario de la BDH (Tobias y Blair,
De igual forma, aunque las colecciones más consultadas son distintas en cada uno de los grupos de usuarios, también es cierto que existen tres colecciones que son solicitadas por todos los grupos: Obras maestras, Carteles y las de Grabados (especialmente los de Durero y los contemporáneos). Una segunda recomendación a este respecto sería añadir, en el menú desplegable situado justo a la derecha del área de texto en la búsqueda sencilla, al menos las tres colecciones más consultadas en todos los grupos de usuarios: Obras maestras, Carteles y las de Grabados. Con ello se pone el énfasis en los aspectos más empleados y, al tiempo, optimizamos las estrategias de búsqueda a disposición de los usuarios al añadir una posibilidad más en la modalidad de consulta sencilla.
En relación al procedimiento seguido para hallar los grupos de usuarios, debe destacarse la dimensión de los datos como un factor determinante a favor del algoritmo k-means, en detrimento de otras posibilidades matemáticas como el clustering jerárquico, cuya complejidad hace que sea un procedimiento poco adecuado para grandes volúmenes de datos, como es nuestro caso (Steinbach y otros,
Otro gran grupo de procedimientos de agrupamiento se basan en modelos de distribución, entre los que destacan las distribuciones gaussianas, que se basan en la probabilidad de adscribir cada elemento a una determinada distribución gaussiana. A su vez, dentro de este tipo de distribución, sobresalen los modelos mixtura de gaussianas, que emplean algoritmos esperanza-maximización (Hastie y otros,
Sometiendo el corpus de datos a este algoritmo entre 1 y 11 grupos, se aconseja formar 10 grupos con las sesiones. Este número tan elevado de grupos puede deberse al problema de sobreajuste que afecta a esta clase de procedimientos (Tu,
Los modelos de agrupamiento basados en densidad descubren grupos en áreas donde se localiza una mayor concentración o densidad de elementos. Los elementos dispersos que no pertenezcan a zonas de mayor aglomeración de observaciones se denominan ruido (Ester y otros,
Realizadas las pruebas correspondientes, pueden obtenerse entre 8 y 14 grupos, imponiendo un valor de 3 para el parámetro ‘eps’ y variando el parámetro minPts (con valor minPts=100 se obtienen 8 grupos y con valor minPts=50 se obtienen 14 grupos). Conforme disminuye el número de grupos, más elementos son considerados como ruido o puntos límite (para 14 grupos obtenemos 187 elementos no adscritos a ninguno de dichos grupos, hasta un máximo de 634 sesiones consideradas ruido o puntos límite para 8 grupos). A su vez, si disminuimos el valor del parámetro ‘eps’ (entre 0,40 y 1,5), obtenemos un número muy abultado de grupos (con eps= 0,43 se obtienen 69 grupos, mientras que con eps= 1,5 se obtienen 56 grupos). En consecuencia, este tipo de modelos no ofrece una solución aplicable a nuestro caso, debido al elevado número de grupos propuesto.
Por último, se han realizado pruebas con un modelo de clustering semejante en sus principios al algoritmo k-means denominado k-medoids. La diferencia entre ambos algoritmos estriba en que, mientras los grupos en k-means están representados por un punto central que no tiene por qué ser necesariamente un elemento del grupo, en k-medoids los grupos están representados por un elemento del grupo cuya disimilaridad media con todos los objetos o elementos del grupo es mínima (Velmurugan y Santhanam,
Los resultados obtenidos en las pruebas proporcionan 3 grupos con un número semejante de elementos al algoritmo k-means (un grupo 1 con 168.427 elementos; el grupo 2 posee 9.789 elementos; y el grupo 3 reúne 17.281 elementos), aunque con peores valores en los índices Calinski_Harabasz (1013477 frente a 1107739 del algoritmo k-means) y Silhouette (0,635 frente a 0,676 del algoritmo k-means).
Por último, comentar que uno de los inconvenientes que suele señalarse al analizar el algoritmo k-means es la tendencia a formar grupos de tamaño similar (Kaufman y Rousseeuw,
El algoritmo k-means es un procedimiento de agrupamiento muy conocido que se adecua bien al análisis de extensos ficheros log de sesiones de consulta, debido a su poca complejidad, su eficiencia en tiempos de ejecución y a su aplicabilidad a conjuntos de datos de grandes dimensiones, además de los altos valores que obtiene en los diversos índices intra-grupos e inter-grupos empleados para su validación.
El análisis cuantitativo de los ficheros log de la BDH correspondientes a un año ha permitido determinar tres grupos de usuarios en función de su comportamiento en tareas de búsqueda de información mediante consulta. Distintos valores de la duración de las sesiones, de la utilización de la consulta avanzada y del empleo de filtros permite caracterizar cada uno de esos grupos, cuyo resumen se puede consultar en la
La relación inversa entre la utilización de herramientas para la formulación de la consulta y el nivel de conocimiento de la información que busca el usuario o la experiencia previa en el funcionamiento del buscador, relación señalada ya en estudios anteriores, permite calificar los grupos con las denominaciones ‘experimentados’, ‘poco experimentados’ y ‘muy experimentados’ en función de los niveles de utilización de la consulta avanzada y de la herramienta de filtración de resultados.
El grupo 2 (usuarios poco experimentados) emplea en mayor medida la ayuda que brinda la consulta avanzada, distinguiéndose al tiempo por una mayor utilización de los filtros temático y de autor. Ello se explica por unas necesidades informativas menos perfiladas y por un menor conocimiento de la BDH en general y de su sistema de recuperación en particular. El grupo 3 (usuarios muy experimentados), por el contrario, emplea menos la consulta avanzada y los filtros temático y de colecciones, debido a una concreción mayor de la documentación buscada y de un mejor conocimiento de los fondos de la BDH y de su buscador.
De cara al futuro, sería de gran utilidad poder completar estas conclusiones con información sobre el proceso de consulta llevado a cabo por los usuarios y las diversas acciones que la componen, de manera que podamos analizar en profundidad el modo de proceder de los usuarios durante las tareas de búsqueda y recuperación de información. A este respecto sería de interés simplificar la estructura de servidores que recopilan los datos log y conservarlos para mejorar el servicio mediante su análisis periódico.
De igual forma, sería conveniente completar la información meramente cuantitativa sobre los grupos hallados con un análisis posterior, de carácter cualitativo, que permita sacar a la luz características de los grupos que el tratamiento cuantitativo no desvela. Al mismo tiempo, este segundo análisis permitiría corroborar los resultados numéricos obtenidos previamente.
Quisiera agradecer la colaboración de los responsables de la Biblioteca Digital Hispánica de la Biblioteca Nacional de España, sin cuya ayuda este análisis no habría sido posible. En especial quiero mostrar mi agradecimiento a Isabel Bordes Cabrera, jefa de Área de Biblioteca Digital, por su interés y permanente ayuda al facilitarme todos los datos utilizados en este estudio.
This work was carried out with the collaboration of the manager staff of the Hispanic Digital Library of the National Library of Spain, without whose help this analysis would not have been possible. In particular I want to show my gratitude to Isabel Bordes Cabrera, head of Digital Library area, for her interest and permanent help to provide me with all data used in this study.