1. Introducción
⌅En los últimos 20 años Web of Science (WoS) y Scopus han sido los grandes referentes en la provisión de datos bibliográficos. Siendo inicialmente índices de citas, las ahora plataformas bibliográficas son las fuentes de datos predilectas en los principales procesos de evaluación de individuos, grupos y centros de investigación en salud. Uno de los motivos por los cuales han sido consideradas relevantes ha sido su cuidadosa selección de fuentes de calidad con artículos evaluados. Este elevado filtro aplicado en su política de indización ha supuesto en consecuencia que todavía no se valore una parte de la producción científica mundial, también de calidad. Esto ha conllevado no tener en cuenta, entre otros, muchos resultados científicos de investigaciones originarias de regiones en vías de desarrollo o cuyo enfoque sea más local.
En los últimos años varios estudios ya advirtieron de
sesgos de cobertura de estas fuentes que monopolizan la edición
científica mundial, principalmente a nivel geográfico, de idioma y de
campo de estudio (Mongeon y Paul-Hus, 2016Mongeon, P., y Paul-Hus, A. (2016). The journal coverage of Web of Science and Scopus: a comparative analysis. Scientometrics, 106(1), 213-228. DOI: https://doi.org/10.1007/s11192-015-1765-5
; Vera-Baceta et al., 2019Vera-Baceta, M.-A., Thelwall, M., y Kousha, K. (2019). Web of Science and Scopus language coverage. Scientometrics, 121(3), 1803-1813. DOI: https://doi.org/10.1007/s11192-019-03264-z
). Durante todo este tiempo algunas de las
bases de datos mencionadas han llevado a cabo varias transformaciones en
su cobertura con el fin de minimizar estos desbalances. Aun así, muchos
de estos han continuado presentes, y estudios recientes (Asubiaro et al., 2024Asubiaro, T., Onaolapo, S., y Mills, D. (2024). Regional disparities in Web of Science and Scopus journal coverage. Scientometrics, 129(3), 1469-1491. DOI: https://doi.org/10.1007/s11192-024-04948-x.
) siguen apuntando a sesgos regionales favorables hacia las revistas publicadas en Europa, Oceanía y América del Norte.
El
mismo estudio, basado en una comparativa del directorio de revistas de
Ulrich’s con WoS y Scopus, apunta nuevamente a una indexación
desproporcionada de revistas publicadas en inglés por estas bases de
datos. Por medio de un análisis muestra cómo la cobertura de WoS y
Scopus difiere entre las regiones, con las ciencias sociales y las
humanidades todavía subrepresentadas en comparación con las ciencias
naturales y las ciencias médicas y de la salud. Simard et al. (2024)Simard,
M.-A., Basson, I., Hare, M., Lariviere, V., y Mongeon, P. (2024). The
open access coverage of OpenAlex, Scopus and Web of Science. ArXiv.
también constatan este comportamiento demostrando como revistas en
acceso abierto del directorio DOAJ del ámbito de las ciencias naturales e
ingeniería y biomedicina están mucho mejor cubiertas por WoS y Scopus
que las revistas en ciencias sociales y humanidades, lo que se alinea
con los hallazgos anteriores de Mongeon y Paul-Hus (2016)Mongeon, P., y Paul-Hus, A. (2016). The journal coverage of Web of Science and Scopus: a comparative analysis. Scientometrics, 106(1), 213-228. DOI: https://doi.org/10.1007/s11192-015-1765-5
.
En respuesta al duopolio histórico de estas fuentes en la provisión de datos y a sus múltiples sesgos de cobertura, desde inicios de siglo han surgido nuevas bases de datos para extraer datos bibliométricos, desde Google Scholar (2004), hasta la recién llegada OpenAlex. Ambas han supuesto, cuanto menos, empezar a plantear alternativas al duopolio WoS-Scopus, dando la posibilidad de compararlas en diferentes aspectos (volumen y representatividad de la cobertura, criterios de selección o calidad de los datos recogidos). En paralelo, Crossref (2000), la fuente esencial de datos académicos que ha ofrecido hasta la fecha indicadores únicos a través de DOI para simplificar la gestión y citación de contenido digital, también ha ido recopilando sus datos.
OpenAlex y Crossref han irrumpido en estos
días con grandes volúmenes de datos de consulta gratuita. Sin embargo,
todavía no disponen de una interfaz de consulta que permita al público
general extraer directamente estos datos y trabajar simultáneamente con
varias fuentes. Si bien OpenAlex puede aportar información muy valiosa a
investigadores e instituciones, su interfaz de usuario es limitada y
con menos funcionalidades respecto a las de WoS y Scopus (Codina, 2024Codina, L. (2024). OpenAlex: ¿una alternativa a Scopus y Web of Science? Disponible en: https://www.lluiscodina.com/openalex-scopus/.
), basándose en criterios propios de accesibilidad (arquitectura de la información y diseño centrado en el usuario).
En
este punto, existen dos problemas complementarios. Por un lado, hay un
problema de falta de interfaz de consulta (o una interfaz muy precaria),
lo cual dificulta todavía su uso y provoca que muchos usuarios finales
no utilicen Crossref o OpenAlex. Por otro lado, en cuanto a las
funcionalidades más avanzadas que destaca Codina (2024)Codina, L. (2024). OpenAlex: ¿una alternativa a Scopus y Web of Science? Disponible en: https://www.lluiscodina.com/openalex-scopus/.
,
el uso de APIs (Interfaces de Programación de Aplicaciones) sí que
permite realizar búsquedas avanzadas (como ya se ha visto en algún
estudio de contraste en artes y humanidades, como en Borrego et al., 2023Borrego, Á., Ardanuy, J., y Arguimbau, L. (2023). Crossref as a bibliographic discovery tool in the arts and humanities. Quantitative Science Studies, 4(1), 91-104. DOI: https://doi.org/10.1162/qss_a_00240.
),
pero nuevamente el problema es que la consulta de dichas APIs requiere
unos conocimientos de los que no disponen muchos usuarios finales. La
previsión es que en el futuro la interfaz de consulta de OpenAlex
incluirá funcionalidades similares a las de WoS o Scopus, de modo que
mientras dure este desarrollo, sería interesante empezar a realizar
evaluaciones de su cobertura a pesar de que todavía no sea un producto
para el gran público.
El desarrollo y establecimiento de estas
fuentes de datos coincide con que algunas instituciones académicas
europeas ya han empezado a proponerlas como opciones válidas, a efectos
de dejar atrás definitivamente las antiguas bases de datos
bibliográficas. Son los casos del CNRS, dándose de baja de Scopus en
beneficio del uso de OpenAlex, Crossref y Dimensions (CNRS, 2024CNRS. (2024). Le CNRS se désabonne de la base de publications Scopus. Disponible en: https://www.cnrs.fr/fr/cnrsinfo/le-cnrs-se-desabonne-de-la-base-de-publications-scopus.
), y de la Sorbonne Université, quien ha cancelado su suscripción a WoS y cita en particular OpenAlex como alternativa (Sorbonne Université, 2023Sorbonne Université. (2023). Sorbonne University unsubscribes from the Web of Science. Disponible en: https://www.sorbonne-universite.fr/en/news/sorbonne-university-unsubscribes-web-science.
).
En esta situación, se abre una ventana muy interesante bajo la cual
estudiar las fuentes mencionadas en diferentes aspectos (revistas,
artículos, citas, calidad de metadatos, etc.) y comprobar si pueden ser
válidas en la actualidad.
2. Antecedentes
⌅Google Scholar (GS) fue una de las primeras fuentes digitales en aparecer en comparativas de cobertura (Meho y Yang, 2007Meho,
L. I., y Yang, K. (2007). Impact of data sources on citation counts and
rankings of LIS faculty: Web of science versus scopus and google
scholar. Journal of the American Society for Information Science and Technology, 58(13), 2105-2125. DOI: https://doi.org/10.1002/asi.20677.
)
con las bases de datos tradicionales. Dentro de las ciencias de la
salud también se ha planteado GS como alternativa a WoS, Scopus y Pubmed
(Falagas et al., 2008Falagas,
M. E., Pitsouni, E. I., Malietzis, G. A., y Pappas, G. (2008).
Comparison of PubMed, Scopus, Web of Science, and Google Scholar:
strengths and weaknesses. The FASEB Journal, 22(2), 338-342. DOI: https://doi.org/10.1096/fj.07-9492LSF.
).
En este contexto de cobertura, sin perder de vista la importancia de
seguir seleccionando fuentes de calidad para garantizar la confianza en
la ciencia, ambos trabajos coinciden además en la baja calidad de los
datos recogidos en dicha base de datos y en la duplicidad de las citas
(computar dos veces un mismo trabajo al disponerse en varias formas).
Esto pone el foco en los análisis bibliométricos en la necesidad de ir
más allá de medir la cobertura en el sentido estricto de volumen de
datos recopilados y determinar si permiten, por ejemplo, realizar
búsquedas con criterios avanzados para contextualizar mejor los
resultados y también poder explotar los datos.
Nuevos estudios comparativos entre WoS, Scopus y GS (Martín-Martín et al., 2021Martín-Martín,
A., Thelwall, M., Orduna-Malea, E., y Delgado López-Cózar, E. (2021).
Google Scholar, Microsoft Academic, Scopus, Dimensions, Web of Science,
and OpenCitations’ COCI: a multidisciplinary comparison of coverage via
citations. Scientometrics, 126(1), 871-906. DOI: https://doi.org/10.1007/s11192-020-03690-4.
)
muestran la superioridad de GS nivel de volumen de cobertura. Sin
embargo, no se pudo hallar un método confiable y escalable para la
extracción masiva de datos y hubo grandes problemas para descargar datos
para evaluar GS, como ya contó previamente el mismo autor en una
entrevista publicada en Nature (Else, 2018Else, H. (2018). How I scraped data from Google Scholar. Nature, April 2018.
).
El estudio comparativo comprobó también que los metadatos que ofrece GS
son muy limitados, reduciendo su idoneidad práctica para grandes
estudios de citas o incluso para poder filtrar según el tipo de fuentes
deseadas. El hecho de que GS sea una fuente cerrada propiedad de una
empresa privada, con lo que esto supone, centra las críticas de parte de
la comunidad científica, que clama cada vez más por unas bases de datos
bibliográficas abiertas sin restricciones para la utilización de los
datos, entre otros (Offord, 2024Offord, C. (2024, April 16). Researchers need ‘open’ bibliographic databases, new declaration says. Science. Disponible en: https://www.science.org/content/article/researchers-need-open-bibliographic-databases-new-declaration-says.
).
En
los últimos años, se analizaron plataformas con grandes cantidades de
datos de acceso libre, como Microsoft Academic, Dimensions, Crossref y
OpenAlex (Visser et al., 2021Visser,
M., van Eck, N. J., y Waltman, L. (2021). Large-scale comparison of
bibliographic data sources: Scopus, Web of Science, Dimensions,
Crossref, and Microsoft Academic. Quantitative Science Studies, 2(1), 20-41. DOI: https://doi.org/10.1162/qss_a_00112
), hallando en ellas puntos a mejorar en
recogida de datos: enlaces de citación incompletos, problemas con
referencias no relacionadas con el documento citado, etc. Pese a
observar todavía problemas de precisión e integridad en los metadatos,
actualmente ya se hallan estudios que concluyen que OpenAlex puede ser
una alternativa confiable para algunos análisis (Alperin et al., 2024Alperin,
J. P., Portenoy, J., Demes, K., Larivière, V., y Haustein, S. (2024).
An analysis of the suitability of OpenAlex for bibliometric analyses. ArXiv.
).
Como
aspecto positivo, además de su cobertura, uno de los elementos
diferenciadores de estas fuentes es el acceso a los datos. Mientras que
GS es una fuente cerrada sin API pública, Crossref (Hendricks et al., 2020Hendricks,
G., Tkaczyk, D., Lin, J., y Feeney, P. (2020). Crossref: The
sustainable source of community-owned scholarly metadata. Quantitative Science Studies, 1(1), 414-427. DOI: https://doi.org/10.1162/qss_a_00022.
) y OpenAlex son abiertas y sí disponen de sus respectivas APIs abiertas.
Crossref 1 https://www.crossref.org/community/about/history/ es una agencia sin ánimo de lucro que registra y provee los Digital Object Identifier (DOI) a los artículos, un enlace permanente que identifica y relaciona entre si objetos digitales y propiedades mediante metadatos. Debido a la elevada cantidad de datos que ha recopilado a partir de los metadatos asociados depositados por las editoriales cuando asignan los DOI a sus artículos, la organización decidió tomar el reto de posicionarla como nueva gran fuente de provisión de datos de citas. Este hipotético alcance hace que Crossref sea una propuesta muy interesante para incluirla en el presente estudio.
OpenAlex
2
https://openalex.org/about
(Singh Chawla, 2022Singh Chawla, D. (2022). Massive open index of scholarly papers launches. Nature. DOI: https://doi.org/10.1038/d41586-022-00138-y.
)
es un índice abierto y gratuito de más de 200 millones de documentos
científicos cuyas principales fuentes son Microsoft Academic Graph
(MAG), antigua Microsoft Academic una vez concluido su cierre, junto a
la propia Crossref, ORCID, ROR, DOAJ, Unpaywall, PubMed Central y otros
repositorios como arXiv o Zenodo. Uno de los aspectos más interesantes
es que cataloga millones de documentos estableciendo conexiones entre
ellos, enriqueciendo los datos y dando un gran salto de calidad a sus
registros. A diferencia de Crossref, OpenAlex sí ha desarrollado y
lanzado su propia interfaz de prueba, pero todavía está en fase inicial (alpha),
a la espera de una más consolidada. Como Crossref, dispone de su API de
consulta para acceder alternativamente a contenidos recogidos en sus
bibliotecas.
La versión actual de OpenAlex no permite realizar
consultas de información masivas directas a la biblioteca de documentos
indexados, ni extraer datos para realizar consultas individuales (Priem et al., 2022Priem,
J., Piwowar, H., y Orr, R. (2022). OpenAlex: A fully-open index of
scholarly works, authors, venues, institutions, and concepts. ArXiv Preprint.
).
Hasta la fecha, únicamente es posible aplicar filtros y localizar
objetos mediante identificador individual. Sin embargo, existen métodos
alternativos mediante el uso de algunos paquetes desarrollados que
permiten consultar las antes citadas APIs de las fuentes bibliográficas
de acceso libre, como rcrossref y openalexR, metodológicamente vía lenguajes de programación cada vez más presentes en estudios bibliométricos que quieren extraer datos.
3. Objetivos
⌅El objetivo principal del estudio es analizar la cobertura de producción científica en ciencias de la salud a nivel de revistas y editoriales en Crossref, WoS y Scopus, y a nivel de artículos indexados, cómputo de citas y calidad de los datos recogidos en OpenAlex, WoS y Scopus, con el fin de valorar dichas nuevas fuentes como una alternativa real a las fuentes tradicionales.
Las preguntas que impulsan esta investigación son:
-
¿Cuál es el porcentaje de cobertura de revistas científicas en ciencias de la salud en las tradicionales fuentes de datos bibliográficas WoS y Scopus?
-
¿Es superior la cobertura de revistas que ofrecen nuevas fuentes de datos como Crossref?
-
¿Cuál es la representación de las editoriales de estas revistas en cada una de las fuentes?
-
¿Cuál es el porcentaje de cobertura de artículos científicos en ciencias de la salud en las tradicionales fuentes de datos bibliográficos WoS y Scopus?
-
¿Es superior la cobertura de artículos que ofrecen las nuevas fuentes de datos como OpenAlex?
-
¿En qué lugar se encuentra el cómputo de citas recibidas por los artículos en WoS y Scopus en comparación al cómputo de citas que recoge OpenAlex?
-
¿Cuál es el nivel de calidad de la indexación de los datos de los artículos en WoS, Scopus y OpenAlex?
4. Metodología
⌅4.1 Objeto de estudio
⌅Para la comparativa de revistas se escoge como referencia el listado más amplio conocido en ciencias de la salud: PubMed Journal List. Este es el listado de revistas científicas indexadas en Medline mediante sus artículos recuperados por PubMed 3 https://pubmed.ncbi.nlm.nih.gov/ , motor de búsqueda que realiza las consultas. Mantenida por la National Library of Medicine (NLM), institución encargada de garantizar que la mayoría de las revistas indexadas pasen el peer review o sean arbitradas4 https://support.nlm.nih.gov/knowledgebase/article/KA-04151/en-us , nos encontramos ante una cobertura total que se presupone de calidad. Dado que recupera todos los resultados de Medline, la base de datos bibliográfica médica más amplia existente, PubMed incluye todos los títulos de Medline y acumula más de 30.000 registros de revistas indexadas. Siendo un listado temático, supera incluso a otros genéricos, justificando así su elección como modelo de referencia para la cobertura de revistas en ciencias de la salud.
Para la comparativa de artículos el foco son los documentos científicos en forma de artículos científicos del hospital Parc Taulí (Sabadell) publicados por autores afiliados a su centro de investigación, el Institut d’Investigació i Innovació Parc Taulí (I3PT), entre 2020 y 2022. Esta muestra (cercana a los 1.500 artículos), siendo muy reducida si se compara con la totalidad de artículos publicados en biomedicina, mediante medición previa se valida que dentro del contexto del estudio (valorar nuevas fuentes de datos) permita arrojar suficiente variabilidad en los datos y un nivel de confianza deseado como para incorporarla. Además, la inexistencia de estudios en el campo de la biomedicina que midan en concreto la cobertura de artículos en OpenAlex, no permite todavía que la muestra pueda validarse mediante esta vía.
La variedad de características relevantes para medir la propiedad de la cobertura de artículos (indexación, recuento de citas y calidad de los metadatos) también garantiza que la muestra vaya a reflejar adecuadamente diversidad. Por último, la selección completamente aleatoria de todos los artículos dentro del periodo establecido comprendiendo múltiples subdisciplinas, respalda desde el punto de vista estadístico que la muestra cumple con semejantes criterios.
El I3PT es un centro de investigación en ciencias de la salud organizado en siete áreas de conocimiento (cáncer, salud mental y neurociencias, metabolismo, digestivo, etc.) y en dos áreas transversales (datos e innovación tecnológica en salud y ciencias ómicas). Desde 2021 forma parte de la estructura de investigación de Cataluña como centro de investigación acreditado (Centres CERCA) y, desde 2023, también como Instituto de Investigación Sanitaria otorgado por el Ministerio de Ciencia e Innovación, a través del Instituto de Salud Carlos III.
Serán hábiles para el estudio aquellos resultados de investigación del personal investigador vinculado al I3PT, publicados en revistas académicas, ya sean artículos originales, revisiones, materiales editoriales y demás, siempre que dispongan propiamente de un DOI asociado.
4.2 Comparativa de cobertura de revistas y editoriales
⌅La metodología de esta primera parte del estudio corresponde a los objetivos 1-3 y consiste en obtener el listado de revistas en ciencias de la salud (PubMed) y compararlo con el resto de las fuentes para poder medir sus coberturas. Los listados se pueden obtener directamente de la fuente para después contrastarlos (WoS y Scopus). En caso de no poderlos obtener mediante consulta inicial al no disponer de interfaz (Crossref), se introduce directamente el modelo de referencia (PubMed Journal List) en dicha fuente y se extraen así los resultados finales.
4.3 Declaración de la muestra - PubMed journal list
⌅Representando a la cobertura de revistas en ciencias de la salud se descarga el listado PubMed Journal List 5 https://www.nlm.nih.gov/bsd/serfile_addedinfo.html . El fichero es un texto plano con los datos de cada revista (registro) dispuestos en vertical y separados por guiones. En total, en febrero de 2023, reunía 35.536 títulos.
La calidad de los datos del fichero es limitada, indicando únicamente el título de la revista y la abreviación, código identificador de la NLM y el ISSN en versión en línea e impresa. Varios registros no incorporan ningún ISSN, lo cual será motivo de exclusión de dicha revista para que así solamente entren en la comparativa títulos que se puedan identificar a partir de este campo. ISSN es un identificador numérico inequívoco y el mejor campo para el nexo común entre los listados. Se descarta el uso del título para evitar errores gramaticales. Siguiendo los criterios establecidos, el cómputo concluye con 31.319 revistas indexadas en PubMed que disponen de mínimo un ISSN y se tienen en consideración para el estudio.
4.4 Web of Science (WoS)
⌅La mayor cobertura conocida en la base de datos de WoS corresponde a la Core Collection, la cual incluye los índices Science Citation Index Expandex (SCIE), Social Sciences Citation Index (SSCI), Arts and Humanities Citation Index (AHCI) y Emerging Sources Citation Index (ESCI). Esta es muy superior a la cobertura, por ejemplo, que el Journal Citation Reports (JCR).
El Master Journal List 6 https://www.recursoscientificos.fecyt.es/ se obtiene descargando los ficheros de cada índice con los campos de interés. Posteriormente se unifican para después eliminar los duplicados de revistas que estén en varios índices. Estos son: título, ISSN’s, nombre y dirección del editor, idioma y categoría temática. Se excluye la categoría dada su falta de precisión y difícil equiparación con otras fuentes y se dejan los campos del editor para explotar los datos de la representación editorial.
Para comparar mejor la representación editorial se limpia parte de la información incorporada en el fichero. En la columna “Publisher name” aparecen, tanto nombres de editores, como los coeditores, subdivisiones editoriales o imprentas asociadas. Para resolver tan alto porcentaje de disparidad, se curan los datos de los cinco grandes editores del mercado editorial (Elsevier, Springer-Nature, Wiley, Taylor y Francis y Sage), renombrando y unificando sus variantes.
Para las que dispongan de los dos ISSN en su registro de PubMed, se dejará solamente uno de ellos, siendo ISSN en línea el que prevalezca por su mejor localización. Si presentan el mismo criterio los demás listados (Scopus y Crossref), siempre que consten ambos prevalecerá este.
4.5 Scopus
⌅Para identificar las revistas indexadas en la base de datos de Scopus se realiza la consulta a Scopus Sources
7
https://www.scopus.com/source
. Aplicando el filtro “Journals” se muestran
indexadas 40.878. Este listado incorpora títulos actuales, nuevos
aceptados e interrumpidos, con lo cual se debe limitar a solo títulos
activos (Baiget, 2022Baiget, T. (2022, November). ¿Cuántas revistas tiene indexadas Scopus? Profesional de La Información. Disponible en: https://www.profesionaldelainformacion.com/cuantas-revistas-tiene-indexadas-scopus/.
).
Con este filtro en activo se obtienen, a mayo de 2023, 26.569 revistas
con ISSN (Scopus y WoS solo registran e indexan revistas que tengan
ISSN).
En cuanto al conjunto de campos de las revistas que reúne el fichero, de todos ellos destacan para la comparativa: título, ISSN impreso y en línea y nombre del editor y del editor principal.
4.6 Crossref
⌅El
proceso para obtener las revistas indexadas dentro de la base de datos
de Crossref es más complejo al no disponer de interfaz para obtener los
listados. La metodología a seguir, que se explica en otros estudios (Borrego et al., 2023Borrego, Á., Ardanuy, J., y Arguimbau, L. (2023). Crossref as a bibliographic discovery tool in the arts and humanities. Quantitative Science Studies, 4(1), 91-104. DOI: https://doi.org/10.1162/qss_a_00240.
), está basada en el uso del entorno y el lenguaje de programación R
8
https://rpubs.com/angelborrego/taller_ciencia_oberta
desde el programa RStudio y a través del paquete rcrossref.
Aplicando el código con las órdenes correspondientes, el proceso
permite introducir en Crossref el listado de revistas de PubMed mediante
sus ISSN y saber cuáles de ellas se encuentran indexadas.
Seguidamente se preparan los dos listados adaptando la consulta a RStudio, lo cual supondrá concatenar los ISSN y entrecomillarlos. Se requiere la instalación de los paquetes de Crossref y “llamarlos” para habilitar sus funciones. Para terminar, se aplica el código con las funciones pertinentes para la consulta de la base de datos Crossref hasta obtener los listados con las revistas. Los resultados se exportan mediante ficheros en hojas de cálculo y unifican para así eliminar duplicados de revistas con ambos ISSN originarios del listado original de PubMed.
4.7 Comparativa de cobertura de artículos
⌅La segunda metodología responde a los objetivos 4-7 y gira en torno a la muestra de artículos del Parc Taulí que recoge el I3PT, correspondiente a los años 2020-2022 en primera fecha de la publicación en línea. El campo identificador de los artículos utilizado para las consultas en las diferentes fuentes de datos y librerías será el DOI, el identificador único y permanente que permite localizarlos inequívocamente. Las consultas se realizarán en fechas muy próximas entre sí para coincidir el contexto y que la comparación sea lo más ecuánime posible.
4.8 Declaración de la muestra - Artículos del Hospital Parc Taulí y el I3PT
⌅La muestra de los 1404 artículos científicos del Hospital Parc Taulí y el I3PT se divide en tres bloques, disponiendo todos obligatoriamente de DOI para poder lanzar mediante este las consultas: 457 artículos de 2020, 484 artículos de 2021 y 463 artículos del año 2022.
4.8.1 Parte 1: Nivel de indexación y cómputo de citas
⌅La consulta en WoS se realizará mediante la propia interfaz de consulta de la plataforma y el cajetín de búsqueda básica, donde se introducirán los DOIs correspondientes a cada muestra anual de artículos científicos previa selección de este mismo campo dentro de las opciones de búsqueda. También será necesario indicar que la búsqueda se realice en All Databases para de este modo mostrar más resultados en cuanto a artículos indexados y cómputo de citas.
Para Scopus los datos referidos a indexación y artículos se obtendrán preparando una consulta avanzada de DOIs concatenados, entrecomillados y con este campo como prefijo tal y como dictan las opciones de búsqueda de la interfaz. Preparado el texto con los objetos, ya solo será necesario seleccionar tipo de campo (“DOI”) y ejecutarla. Aquí no hay que escoger ninguna base de datos en concreto, pues las búsquedas se realizan siempre en una misma colección.
Por último, para OpenAlex la consulta requerirá de nuevo el uso de lenguaje de programación R. Se utilizará el paquete openalexR para interactuar con la API de OpenAlex (Aria, 2023Aria, M. (2023). A Brief Introduction to openalexR. Disponible en: https://ropensci.github.io/openalexR/articles/A_Brief_Introduction_to_openalexR.html
), así como sus principales funcionalidades (Borrego, 2024Borrego, Á. (2024). OpenAlex: breve guía de consulta a través de R. Infonomy, 2(1). DOI: https://doi.org/10.3145/infonomy.24.011.
), con el fin de poder recuperar toda la información bibliográfica correspondiente y posteriormente poder exportarla.
4.8.2 Parte 2: Calidad de la indexación
⌅Para valorar la calidad de la indexación, el objeto de estudio serán los metadatos de cada artículo en las diferentes fuentes. Según la información que aporten estos en cada uno de los registros se determinará luego la calidad de la indexación. Para ello, se escogen una serie de campos identificativos de los artículos y que se consideran mínimamente imprescindibles:
Article title; Authors; Publication year; Source title; Volume; Issue; Start page; End page; Times cited; DOI; Affiliations; Abstract; Keywords; Funding; References; Publisher; ISSN; Pubmed Id; Language; Document type; Open access; ORCID Id.
Para Scopus el modo de consulta empleado será el mismo, mientras que para WoS, habrá un leve ajuste. Además de buscar en todas sus bases de datos para hallar una mayor indexación de artículos y citas, esta consulta se combinará con otra posterior en la Core Collection, con el objetivo de poder adicionar aquellos metadatos que no recogen los registros en la primera.
Para la parte de OpenAlex se volverá a realizar una consulta interactuando con la API. En esta ocasión, en lugar de basarse solo en la identificación de los artículos conforme están indexados y el cómputo de citas recibidas registradas, se añadirán nuevas órdenes para poder extraer los campos mencionados anteriormente. De nuevo mediante el paquete openalexR, primero se comprobarán las variables asociadas a la entidad “Works”, la correspondiente a todos los artículos de revista, libros, datasets y tesis doctorales. Ya visualizados los diferentes campos y manera de referirse a ellos (por ejemplo, ‘so’ como sources o fuentes/revistas), estas variables asociadas a los metadatos del artículo serán llamadas para posteriormente extraerlas.
5. Resultados
⌅5.1 Revistas
⌅Sumando los índices que forman su colección principal, en WoS se calcula que hay indexadas 21.967 revistas. Realizando el cruce por coincidencia entre los dos grupos de revistas, se reportan 12.146 revistas de PubMed también indexadas en la base de datos de WoS, lo que representa un 38,78% (Figura 1) de cobertura final normalizada.
Aplicando el filtro de revistas activas en Scopus, se contabilizan en su base de datos en total 26.569 revistas indexadas activas y con al menos un ISSN identificado. Aplicando el cruce de coincidencia entre este bloque de revistas y el de Pubmed, coinciden en total 13.584 revistas, que representa un 43,37% (Figura 1) de cobertura final normalizada en ciencias de la salud.
Cerrando esta primera comparativa, para la cobertura de Crossref los resultados se dividen en las dos consultas según el tipo de ISSN: en línea e impreso. De las 26.435 revistas con ISSN en línea indexadas en PubMed aparecen 14.935 en Crossref (56,5%). De las 17.140 revistas con ISSN impreso indexadas en PubMed aparecen 10.025 en Crossref, (58,5% de cobertura). Unificando ambos listados y eliminando duplicados de aquellas revistas que presentan los dos campos, se obtiene que de las 31.319 revistas indexadas en PubMed se encuentren 17.860 en Crossref, lo cual se traduce en una cobertura final normalizada del 57,02% (Figura 1).
5.2 Editoriales
⌅Como consecuencia de la curación de datos de las variantes de nombres de las cinco grandes editoriales en los listados de revistas de Crossref y WoS, y junto con la ya atribución de estos grandes grupos en el listado de Scopus, los datos obtenidos para la representatividad editorial de cada fuente con la cobertura de PubMed en ciencias de la salud se presentan más precisos.
Basado en la cobertura de los títulos en común con la lista de PubMed, para WoS la suma de las cinco grandes editoriales representa un 53,70% (Tabla I) de las 12.146 revistas indexadas en ambas, llegando a los 1.659 grupos editoriales. Presentando unos resultados muy similares, en Scopus la suma total repercute en un 53,89% (Tabla II) de las 13.584 revistas indexadas en ambas bases de datos. En el cómputo general se registran hasta 2.292 grupos editoriales, cifra bastante superior a las dos anteriores. Terminando con la alternativa Crossref, la suma de las cinco grandes editoriales representa un 49,2% (Tabla III) de las 17.860 indexadas. Y acerca de la aportación o variedad editorial, se contabilizan hasta 2.138 editoriales representadas.
Frecuencia | Porcentaje | % acumulado | |
---|---|---|---|
Elsevier | 1719 | 14,2 | 14,2 |
Springer Nature | 1598 | 13,2 | 27,3 |
Wiley | 1262 | 10,4 | 37,7 |
Taylor y Francis | 1238 | 10,2 | 47,9 |
SAGE Publications | 710 | 5,8 | 53,7 |
(1659) | … | … | … |
Total | 12146 | 100,0 | 100% |
Frecuencia | Porcentaje | % acumulado | |
---|---|---|---|
Elsevier | 2027 | 14,92 | 14,92 |
Springer Nature | 1975 | 14,54 | 29,46 |
Taylor y Francis | 1350 | 9,94 | 39,40 |
Wiley | 1292 | 9,51 | 48,91 |
SAGE Publications | 676 | 4,98 | 53,89 |
(2292) | … | … | … |
Total | 13584 | 100,0 | 100% |
Frecuencia | Porcentaje | % acumulado | |
---|---|---|---|
Springer Nature | 2491 | 13,9 | 13,9 |
Elsevier | 2452 | 13,7 | 27,7 |
Taylor y Francis | 1554 | 8,7 | 36,4 |
Wiley | 1435 | 8,0 | 44,4 |
SAGE Publications | 857 | 4,8 | 49,2 |
(2138) | … | … | … |
Total | 17860 | 100,0 | 100% |
5.3. Artículos
⌅5.3.1 Nivel de indexación y cómputo de citas
⌅Los resultados para esta primera parte de la comparativa de artículos se muestran a través de las dos variables cuantitativas analizadas: relación de artículos indexados (Figura 2) y cómputo de citas (Figura 3). Cada gráfico, correspondiente a la variable, se compone de tres categorías, las cuales representan las tres muestras anuales de artículos seleccionadas.
Empezando con el nivel de indexación de los artículos en cada fuente, los resultados muestran que OpenAlex está ligeramente por encima de WoS y Scopus. De la muestra total de 1404 artículos, solamente 8 no se hallan indexados en OpenAlex (1396/1404), lo cual la sitúa para cada año en un 99% de cobertura. En WoS, asciende a 20 artículos no indexados (1384/1404), oscilando los diferentes años entre un 96-99%. Scopus se eleva a 88 artículos no indexados (1316/1404), siendo una cobertura para las tres anualidades de la muestra de entre un 91-97%.
Completando el estudio con el cómputo de citas en los artículos obtenido por cada fuente, los datos reflejan que OpenAlex recoge más citas que las demás fuentes en conjunto y en las tres muestras de artículos por separado. Si acumulamos las citas recibidas para las tres muestras de publicaciones anuales, en cifras relativas OpenAlex es ligeramente superior a Scopus (algo más del 8% por encima), y bastante más respecto a WoS (13% de más).
5.3.2. Calidad de la indexación
⌅Terminando con la calidad de la indexación de los artículos mediante sus metadatos (Figura 4), los resultados se presentan porcentualmente para una mejor valoración normalizada de las tres fuentes de datos y compararlas sin que el nivel de indexación condicione (la referencia son los artículos que indexa cada una y los metadatos recuperados, y no de la muestra original).
En general, no se aprecian diferencias significativas en ninguno de los metadatos que se han analizado, si bien hay que tener en cuenta, por ejemplo, que OpenAlex no recoge el Pubmed ID de las publicaciones, ni Scopus el ORCID de los autores. A favor de WoS, los resultados sí reflejan mayor regularidad que las demás (siempre en cifras cercanas), si bien cabe destacar en OpenAlex la absoluta recogida del acceso abierto, mientras que WoS solo lo recoge en un 62% de los artículos indexados de la muestra y Scopus en un 67%. Por el contrario, OpenAlex quedaría muy atrás en datos de financiación (27%, por el 53% de WoS y el 57% de Scopus).
6. Discusión
⌅El análisis de los resultados obtenidos de las comparativas de cobertura a nivel de revistas, editoriales y artículos entre las fuentes tradicionales y las alternativas planteadas revela una serie de conclusiones significativas que merecen una consideración detallada. Cabe mencionar también, antes de abordar específicamente estos resultados, que no existen estudios previos en el campo de las ciencias de la salud que comparen Crossref y OpenAlex con WoS y Scopus y que, por lo tanto, sirvan de marco equivalente para medir los resultados obtenidos.
Si bien se conocen estudios previos sobre la comparativa de Crossref con WoS y Scopus en artes y humanidades (Borrego et al., 2023Borrego, Á., Ardanuy, J., y Arguimbau, L. (2023). Crossref as a bibliographic discovery tool in the arts and humanities. Quantitative Science Studies, 4(1), 91-104. DOI: https://doi.org/10.1162/qss_a_00240.
)
donde la muestra es también un listado temático de revistas como PubMed
Journal List (ERIH PLUS, en el estudio mencionado), no coinciden ni la
muestra ni, por lo tanto, el campo de estudio. En el caso de OpenAlex,
todavía es más difícil hallar estudios parecidos a este en cobertura a
nivel de artículos, dada la precocidad de la fuente y la novedad
implícita que hay detrás del método alternativo de consulta presentado.
6.1. Cobertura de revistas y editoriales
⌅Por un lado, los resultados muestran que las coberturas de revistas de ciencias de la salud ofrecidas por WoS y Scopus, basadas en la de PubMed, son alarmantemente bajas a nivel global. En cuanto a la alternativa ofrecida en este caso, Crossref, sin llegar a ser ni mucho menos sobresaliente, sí lo resulta en términos relativos respecto a las mencionadas, demostrando que a nivel cuantitativo actualmente es una opción muy superior.
La diferencia de 15 puntos porcentuales por encima en el caso de Scopus, y de hasta 20 en el caso de WoS, evidencia una pérdida importante de revistas recogidas en la selección por parte de dichas fuentes bibliográficas. Teniendo en cuenta que, prácticamente en su totalidad, la gran mayoría de revistas indexadas en la fuente de referencia (PubMed) pasan peer review o son arbitradas, muchas de las revistas no indexadas probablemente sean también de calidad. Aun así, en estudios futuros sería muy valorable poder llegar a analizarlas y conocer el motivo de que no estén indexadas en estas bases de datos.
A nivel editorial los datos también son esclarecedores y refuerzan la discusión referente a los sesgos, en este caso a través de sobrerrepresentaciones editoriales. Los resultados reflejan una sobrerrepresentación de los cinco grandes editores en la cobertura de las tres fuentes analizadas, siendo bastante más pronunciada para el duopolio de Elsevier y Springer. Como nota positiva se observa que Crossref, pese mantener ese dominio, ofrece una mejor representación editorial en términos relativos sobre las demás, siendo per se la fuente que más títulos indexa. En un contexto de ciencia abierta se trata de un hecho muy destacable, demostrando la coexistencia de nuevas plataformas que garantizan más oportunidades en términos de indexación a las revistas que no pertenecen a las editoriales más poderosas y suaviza estos tipos de sesgo de selección.
La constatación de la existencia de fuentes de datos (Crossref) con mayor número de revistas indexadas y la cantidad de estos datos disponibles en comparación a las fuentes tradicionales, pone el punto final a esta primera parte del estudio referida a la cobertura a nivel de revistas y de editoriales. Es necesario seguir estudiando estas alternativas con el fin de defender su total viabilidad por encima de las tradicionales, si bien estas aproximaciones invitan al optimismo.
6.2. Cobertura de artículos
⌅Los resultados de la segunda parte del estudio, relativos a la cobertura a nivel de artículos, han constatado que la fuente alternativa propuesta, OpenAlex, ofrecía mejores resultados que las tradicionales tanto a nivel de artículos, como de cómputo de citas recogidas. De igual manera que sucede con Crossref, hallar en esta plataforma resultados positivos sirve de refuerzo para seguir estudiándola en pro de una ciencia más global, cubriendo un abanico más amplio de resultados de investigación, mostrándose de manera pública y esperemos que más accesible.
Analizando los resultados de la comparativa a nivel de indexación de los artículos, OpenAlex se sitúa por encima de WoS y Scopus en cada una de las tres muestras anuales seleccionadas y en el cómputo global. Su volumen de indexación se mantiene en unos parámetros que rozan la excelencia, siguiéndola algo de cerca WoS y, ya más de lejos, Scopus. Acerca de esta última, analizando sus datos, además, se puede observar un patrón negativo no visto en las demás: A más antigua es la publicación, mejor indexación ofrece la plataforma (97% en 2020, por un 91% en 2022), evidenciando, quizás, dificultades a la hora de indexar artículos más recientes.
Siguiendo con el cómputo de citas recogido junto a la indexación de los artículos, nuevamente OpenAlex resulta la mejor situada. Midiéndolo en cifras absolutas, estableciendo una suma de todos los artículos indexados por cada fuente, las citas recogidas suponen un 8,2% más que en Scopus y hasta un 13,5% más que en WoS. Esto es especialmente llamativo para estas últimas dos dado que en WoS presentaba mejor indexación de artículos que Scopus. Sin embargo, en las citas recogidas y con menos artículos, la plataforma de Elsevier obtiene mejores resultados.
Deteniéndonos un segundo, teniendo en cuenta que la muestra de artículos es de una misma zona geográfica (Sabadell) y a sabiendas del sesgo que existe en este sentido, probablemente WoS no tenga excesivos problemas para recoger dicha muestra (sesgo favorable), pero sí más a la hora de recoger los otros artículos citantes de otras regiones (sesgo desfavorable), de ahí la reversión en los resultados vistos en indexación y en citas entre Scopus y WoS. Salvando la correlación entre indexación de artículos y suma de citas, la diferencia porcentual en favor de OpenAlex es en esta última incluso mayor respecto a la vista antes, lo cual significa que en términos de citas existe también un factor diferencial favorable a la fuente alternativa.
Con el fin de comprobar la calidad de la indexación de cada fuente se recogieron y analizaron también los metadatos que acompañaban la indexación de dichos artículos. Los resultados que se han obtenido, los cuales reflejan el nivel de información incorporado por los registros de cada fuente de datos mediante estos metadatos, son en todas ellas y en general muy positivos. En Scopus sobresale la aportación de campos como el editor, las afiliaciones de los autores y el texto de financiación. Por parte de WoS, hallamos lo propio en los identificadores de autor (OrcidID) y de publicación (PubmedID). Y finalmente en OpenAlex la perfecta recogida del estado de acceso abierto de la publicación (100%), por un 62% en WoS y 67% en Scopus, y de las palabras clave; si bien la financiación es sin duda un punto muy mejorable (27,51%).
7. Conclusiones
⌅Poniendo en balance aspectos positivos y negativos de ambas plataformas alternativas, se detectan especialmente grandes carencias en la explotación de los datos, aspecto que motiva la realización de las consultas mediante el lenguaje de programación R. La accesibilidad sigue siendo el punto fuerte de las fuentes de datos tradicionales, que a su vez las convierten todavía hoy en un valor seguro para los procesos de evaluación que requieran de cierta sofisticación a la hora de extraer indicadores bibliométricos, pues mediante estas plataformas es más simple.
Sin hablar de aquellos indicadores de citación
normalizada, cada vez más solicitados en las convocatorias de
investigación, diseñados para medir el impacto de las citas de los
trabajos científicos ajustando por diferencias en el campo de estudio,
tipo de documento y año de publicación (Torres-Salinas et al., 2024Torres-Salinas, D., Orduña Malea, E., Delgado-Vázquez, Á., y Arroyo-Machado, W. (2024). Fundamentos de Bibliometría Narrativa. 1-24. DOI: https://doi.org/10.5281/zenodo.10512837.
), y que todavía estarían algo lejos de ser calculados y ofrecidos por las nuevas fuentes de datos mencionadas.
Por el contrario, se constata algo que venía recogiéndose en estudios recientes acerca de las nuevas plataformas (Borrego et al., 2023Borrego, Á., Ardanuy, J., y Arguimbau, L. (2023). Crossref as a bibliographic discovery tool in the arts and humanities. Quantitative Science Studies, 4(1), 91-104. DOI: https://doi.org/10.1162/qss_a_00240.
),
y es la diferencia a su favor en cuanto a cobertura de fuentes respecto
a las anteriores, complementada con la de artículos. Los resultados
reflejan superioridad en volumen de cobertura de revistas de Crossref
tomando como modelo el listado de PubMed respecto a WoS y Scopus, y una
representación editorial menos sesgada.
El volumen de cobertura de artículos científicos también demuestra una clara superioridad en este caso de OpenAlex respecto a WoS y Scopus en términos de indización y citas recogidas. Uno de los obstáculos que debían salvar era la calidad que acompaña esta cobertura; comprobando tras el análisis de una reducida de +1.400 artículos de un mismo ámbito científica y zona geográfica, que en el presente no tiene nada que envidiar a la ofrecida por las fuentes de datos tradicionales.
En el marco de este trabajo, y en calidad de metadatos de artículos, se constata la riqueza de los datos recogidos por OpenAlex, probablemente uno de los puntos más cuestionados de las nuevas fuentes junto a las carencias de accesibilidad, haciéndola muy competitiva respecto a WoS y Scopus en términos de metadatos y calidad de los registros. Cabe seguir recordando el contexto específico del estudio y el posible sesgo determinado por tratarse de una muestra de artículos de una región muy concreta. Sin embargo, los resultados de esta toma de contacto pueden ser la antesala a nuevos estudios más amplios que continúen con el análisis de estas fuentes de datos y sigan incorporándolas en estudios bibliométricos, a la espera de que terminen con el desarrollo de sus interfaces de consulta y podamos medirlas.
Parece que la transición hacia
nuevas fuentes de datos más globalizadas, abiertas, que aporten más
información y no respondan a sesgos ni discriminen regiones es cada vez
más cercana, de modo que sería muy positivo seguir reforzando y
garantizando que las bases de datos que van a albergar estas nuevas
plataformas bibliográficas realmente garanticen unos mínimos para la
comunidad. En este sentido, existen importantes instituciones europeas
de investigación que ya se han empezado a asociar con OpenAlex (Ministère français de lʼEnseignement supérieur et de la Recherche, 2024Ministère français de lʼEnseignement supérieur et de la Recherche. (2024). Partenariat
du ministère de l’Enseignement supérieur et de la Recherche avec
OpenAlex pour le développement d’un outil bibliographique entièrement
ouvert. Disponible en: https://www.ouvrirlascience.fr/french-ministry-of-higher-education-and-research-partners-with-openalex-to-develop-a-fully-open-bibliographic-tool/.
),
con el fin de desarrollar una herramienta bibliográfica completamente
abierta, fomentar la transparencia y garantizar el acceso a la
información científica en beneficio de la comunidad académica en
Francia.
Concluyendo este trabajo, se constata el buen hacer de las nuevas metodologías que permiten hacer consultas a las APIs de las nuevas fuentes de datos pendientes de interfaces de consulta definitivas, con la finalidad de medir antes la cobertura que ofrecerán y la calidad de los datos albergados. Y por último, cabría resaltar también los frutos que parece que están dando las estrategias colaborativas de recolección de datos de las nuevas iniciativas como OpenAlex, traducidos en registros de artículos muy completos y con un nivel de metadatos muy cercano a la media de las mejores fuentes proveedoras de datos bibliográficos.
8. Material suplementario
⌅Los datos se encuentran disponibles en el repositorio de datos federado y multidisciplinar de universidades catalanas, centros de investigación CERCA y otras entidades de investigación: CORA_RDR. Este repositorio está coordinado por el CSUC, quién vela porque el conjunto de datos de investigación cumpla con los principios FAIR y siga las directrices de la EOSC.
El dataset relativo a este estudio ha sido publicado en el dataverse (espacio propio dentro del repositorio) de la Universidad de Barcelona, y se encuentra disponible en: 10.34810/data1168
El conjunto de datos depositados corresponde a los datos bibliográficos y bibliométricos y los códigos utilizados para el estudio sobre la cobertura de revistas y editoriales de Crossref, Web of Science y Scopus, y para el estudio de cobertura de metadatos y artículos de OpenAlex, Web of Science y Scopus de literatura académica de Ciencias de la Salud.
Estos han sido depositados bajo una licencia de uso y distribución CC BY 4.0
9. Financiación
⌅El artículo no ha sido realizado con financiación pública o privada.
10. Declaración de contribución de autoría
⌅Guillem Cebrián Grifol: Conceptualización, Curación de Datos, Análisis formal, Investigación, Metodología, Administración de proyecto, Software, Redacción – borrador original, Validación, Visualización, Redacción – revisión y edición.
Ángel Borrego Huerta: Conceptualización, Investigación, Metodología, Recursos, Software, Supervisión, Redacción - revisión y edición
Ernest Abadal Falgueras: Conceptualización, Investigación, Supervisión, Redacción - revisión y edición
11. Declaración de conflicto de intereses
⌅Los autores de este artículo declaran no tener conflictos de intereses financieros, profesionales o personales que pudieran haber influido de manera inapropiada en este trabajo.