Trabajando con los conjuntos de datos de Hugging Face

Trabajando con conjuntos de datos de Hugging Face.

Aprende cómo acceder a los conjuntos de datos en Hugging Face Hub y cómo cargarlos de forma remota usando DuckDB y la biblioteca Datasets

Foto de Lars Kienle en Unsplash

Como plataforma de IA, Hugging Face construye, entrena y despliega modelos de aprendizaje automático de código abierto de última generación. Además de alojar todos estos modelos entrenados, Hugging Face también aloja conjuntos de datos (https://huggingface.co/datasets), donde puedes hacer uso de ellos para tus propios proyectos.

En este artículo, te mostraré cómo acceder a los conjuntos de datos en Hugging Face y cómo descargarlos programáticamente en tu ordenador local. Específicamente, te mostraré cómo:

  • cargar los conjuntos de datos de forma remota usando el soporte de DuckDB para httpfs
  • transmitir los conjuntos de datos usando la biblioteca Datasets de Hugging Face

Servidor de Conjuntos de Datos de Hugging Face

Servidor de Conjuntos de Datos de Hugging Face es una API web ligera para visualizar todos los diferentes tipos de conjuntos de datos almacenados en el Hugging Face Hub. Puedes utilizar la API REST proporcionada para consultar los conjuntos de datos almacenados en el Hugging Face Hub. Las siguientes secciones ofrecen un breve tutorial sobre las cosas que puedes hacer con la API en https://datasets-server.huggingface.co/.

Obtener una lista de conjuntos de datos alojados en el Hub

Para obtener una lista de conjuntos de datos que puedes obtener de Hugging Face, utiliza la siguiente declaración con el punto final valid:

$ curl -X GET "https://datasets-server.huggingface.co/valid"

Verás un resultado JSON como se muestra a continuación:

Los conjuntos de datos que pueden funcionar sin errores se enumeran en el valor de la clave valid en el resultado. Un ejemplo de un conjunto de datos válido es 0-hero/OIG-small-chip2.

Validar un conjunto de datos

Para validar un conjunto de datos, utiliza la siguiente declaración con el punto final is-valid junto con el parámetro dataset:

$ curl -X GET "https://datasets-server.huggingface.co/is-valid?dataset=0-hero/OIG-small-chip2"

Si el conjunto de datos es válido, verás el siguiente resultado:

{"valid":true}