Este artículo de IA presenta un conjunto de datos RDF completo con más de 26 mil millones de tripletas que cubren datos académicos en todas las disciplinas científicas.

Este artículo de IA presenta un conjunto de datos RDF completo con más de 26 mil millones de tripletas que cubren datos académicos en todas las disciplinas científicas.' Condensed version 'Este artículo presenta un conjunto de datos RDF con más de 26 mil millones de tripletas que cubren datos académicos en todas las disciplinas científicas.

Mantenerse al día con la investigación reciente se está volviendo cada vez más difícil debido al aumento de las publicaciones científicas. Por ejemplo, solo en 2022 se registraron más de 8 millones de artículos científicos. Los investigadores utilizan diversas técnicas, desde interfaces de búsqueda hasta sistemas de recomendación, para investigar entidades intelectuales conectadas, como autores e instituciones. Modelar los datos académicos subyacentes como un grafo de conocimiento RDF (KG) es un método eficiente. Esto facilita la estandarización, visualización e interconexión con recursos de datos enlazados. Como resultado, los KG académicos son esenciales para convertir el material académico centrado en documentos en estructuras de conocimiento enlazadas y automatizables.

Sin embargo, uno o más de los siguientes son limitaciones de los KG académicos existentes:

  1. Rara vez incluyen una lista exhaustiva de trabajos de todas las materias.
  2. Frecuentemente solo cubren campos específicos, como la informática.
  3. Se actualizan con poca frecuencia, lo que hace que muchos estudios y modelos de negocio estén desactualizados.
  4. A menudo tienen limitaciones de uso.
  5. No cumplen con los estándares W3C como RDF, incluso si cumplen con estos criterios.

Estos problemas impiden la implementación generalizada de KG científicos, como en sistemas de búsqueda exhaustivos y sistemas de recomendación o para cuantificar el impacto científico. Por ejemplo, el Grafo de Conocimiento Académico de Microsoft (MAKG), su descendiente RDF, no se puede actualizar porque se terminó el Gráfico Académico de Microsoft en 2021.

El innovador conjunto de datos OpenAlex busca cerrar esta brecha. Sin embargo, los datos de OpenAlex no se adhieren a los Principios de Datos Enlazados y no son accesibles en RDF. Como resultado, OpenAlex no se puede considerar un KG, lo que dificulta las consultas semánticas, la integración de aplicaciones y la conexión con nuevos recursos. A primera vista, podría parecer una forma sencilla de incluir información académica sobre artículos científicos en Wikidata y, así, apoyar el movimiento WikiCite. Aparte del esquema específico, la cantidad de datos ya es tan vasta que el triplestore Blazegraph del Servicio de Consulta de Wikidata se acerca a su límite de capacidad, bloqueando cualquier integración.

En este trabajo, los investigadores del Instituto de Tecnología de Karlsruhe y Metaphacts GmbH presentan SemOpenAlex, un conjunto de datos RDF muy grande del panorama académico con sus publicaciones, autores, fuentes, instituciones, ideas y editores. SemOpenAlex tiene cerca de 249 millones de artículos de todas las áreas académicas y más de 26 mil millones de triples semánticos. Se basa en su ontología integral y referencia fuentes LOD adicionales, incluyendo Wikidata, Wikipedia y el MAKG. Ofrecen una interfaz SPARQL pública para facilitar el uso rápido y efectivo de la integración de SemOpenAlex con la nube LOD. Además, proporcionan una sofisticada interfaz de búsqueda semántica que permite a los usuarios recuperar información en tiempo real sobre las entidades contenidas en la base de datos y sus relaciones semánticas (por ejemplo, mostrando coautores o los conceptos más importantes de un autor, que se infieren a través del razonamiento semántico en lugar de estar directamente contenidos en la base de datos).

También ofrecen instantáneas completas de los datos RDF para facilitar el análisis de grandes conjuntos de datos. Han creado una canalización utilizando AWS para actualizar rutinariamente SemOpenAlex completamente sin interrupciones del servicio debido a la escala de SemOpenAlex y al creciente número de artículos científicos que se integran en SemOpenAlex. Además, han entrenado incrustaciones de entidades de gráficos de conocimiento de vanguardia para su uso con SemOpenAlex en aplicaciones posteriores. Garantizan la interoperabilidad del sistema de acuerdo con los principios FAIR utilizando ontologías preexistentes siempre que sea posible, y abren la puerta para integrar SemOpenAlex en la nube de Datos Abiertos Enlazados. Ofreciendo actualizaciones mensuales que permiten el seguimiento continuo del impacto científico de un autor, el seguimiento de investigaciones premiadas y otros casos de uso que emplean sus datos, llenan el vacío dejado por la terminación del MAKG. Permiten que grupos de investigación de diversos campos disciplinarios accedan a los datos que proporcionan e incorporen esos datos en sus estudios al hacer que SemOpenAlex sea gratuito y sin restricciones. Actualmente existen casos de aplicación inicial de SemOpenAlex y sistemas de producción.

En general, contribuyen con lo siguiente:

1. Utilizan un vocabulario popular para desarrollar una ontología para SemOpenAlex.

2. En https://semopenalex.org, producen el grafo de conocimiento SemOpenAlex en RDF, que abarca 26 mil millones de triples, y ponen todos los datos, código y servicios de SemOpenAlex a disposición del público.

3. Permiten que SemOpenAlex participe en la nube de Datos Abiertos Enlazados haciendo que todos sus URI sean resolubles. Utilizando un punto de acceso SPARQL, indexan todos los datos en un almacén triple y lo ponen al alcance del público en general.

4. Ofrecen una interfaz de búsqueda semántica con desambiguación de entidades para que los usuarios puedan acceder, buscar y ver al instante el grafo de conocimiento y sus datos estadísticos esenciales.

5. Utilizando computación de alto rendimiento, ofrecen incrustaciones de vanguardia para las entidades representadas en SemOpenAlex.