Trabajando con los conjuntos de datos de Hugging Face
Trabajando con conjuntos de datos de Hugging Face.
Aprende cómo acceder a los conjuntos de datos en Hugging Face Hub y cómo cargarlos de forma remota usando DuckDB y la biblioteca Datasets
Como plataforma de IA, Hugging Face construye, entrena y despliega modelos de aprendizaje automático de código abierto de última generación. Además de alojar todos estos modelos entrenados, Hugging Face también aloja conjuntos de datos (https://huggingface.co/datasets), donde puedes hacer uso de ellos para tus propios proyectos.
En este artículo, te mostraré cómo acceder a los conjuntos de datos en Hugging Face y cómo descargarlos programáticamente en tu ordenador local. Específicamente, te mostraré cómo:
- cargar los conjuntos de datos de forma remota usando el soporte de DuckDB para httpfs
- transmitir los conjuntos de datos usando la biblioteca Datasets de Hugging Face
Servidor de Conjuntos de Datos de Hugging Face
Servidor de Conjuntos de Datos de Hugging Face es una API web ligera para visualizar todos los diferentes tipos de conjuntos de datos almacenados en el Hugging Face Hub. Puedes utilizar la API REST proporcionada para consultar los conjuntos de datos almacenados en el Hugging Face Hub. Las siguientes secciones ofrecen un breve tutorial sobre las cosas que puedes hacer con la API en https://datasets-server.huggingface.co/
.
Obtener una lista de conjuntos de datos alojados en el Hub
Para obtener una lista de conjuntos de datos que puedes obtener de Hugging Face, utiliza la siguiente declaración con el punto final valid
:
$ curl -X GET "https://datasets-server.huggingface.co/valid"
Verás un resultado JSON como se muestra a continuación:
- ¿Cómo convertirse en científico de datos de Amazon en 2023?
- Diferencia entre Ciencia de Datos y Estadística
- Visualizando la Verdadera Extensión de la Maldición de la Dimension...
Los conjuntos de datos que pueden funcionar sin errores se enumeran en el valor de la clave valid
en el resultado. Un ejemplo de un conjunto de datos válido es 0-hero/OIG-small-chip2
.
Validar un conjunto de datos
Para validar un conjunto de datos, utiliza la siguiente declaración con el punto final is-valid
junto con el parámetro dataset
:
$ curl -X GET "https://datasets-server.huggingface.co/is-valid?dataset=0-hero/OIG-small-chip2"
Si el conjunto de datos es válido, verás el siguiente resultado:
{"valid":true}