5 formas de obtener conjuntos de datos interesantes para tu próximo proyecto de datos (no en Kaggle)
5 formas de obtener conjuntos de datos interesantes (no en Kaggle) para tu próximo proyecto de datos.
¿Aburrido de Kaggle y FiveThirtyEight? Aquí están las estrategias alternativas que uso para obtener conjuntos de datos de alta calidad y únicos
La clave para un gran proyecto de ciencia de datos es un gran conjunto de datos, pero encontrar buenos datos es mucho más fácil decirlo que hacerlo.
Recuerdo cuando estaba estudiando para mi maestría en Ciencia de Datos, hace poco más de un año. Durante el curso, descubrí que encontrar ideas de proyectos era la parte fácil, pero encontrar buenos conjuntos de datos fue lo que más me costó. Pasaba horas buscando en internet, arrancándome el pelo tratando de encontrar fuentes de datos jugosos y sin llegar a ninguna parte.
Desde entonces, he avanzado mucho en mi enfoque, y en este artículo quiero compartir contigo las 5 estrategias que uso para encontrar conjuntos de datos. Si estás aburrido de fuentes estándar como Kaggle y FiveThirtyEight, estas estrategias te permitirán obtener datos que son únicos y mucho más adaptados a los casos de uso específicos que tienes en mente.
1. Crear tus propios datos
Sí, lo creas o no, esta es realmente una estrategia legítima. Incluso tiene un nombre técnico elegante (“generación de datos sintéticos”).
Si estás probando una nueva idea o tienes requisitos de datos muy específicos, crear datos sintéticos es una forma fantástica de obtener conjuntos de datos originales y adaptados.
- ¿Demasiadas características? Veamos el Análisis de Componentes Prin...
- Más allá de los números El papel crucial de las habilidades blandas...
- Explorando tendencias y patrones de conflicto Análisis de datos ACL...
Por ejemplo, digamos que estás tratando de construir un modelo de predicción de abandono, un modelo que pueda predecir cuán probable es que un cliente abandone una empresa. El abandono es un “problema operacional” bastante común que enfrentan muchas empresas, y abordar un problema como este es una excelente manera de mostrar a los reclutadores que puedes usar ML para resolver problemas comercialmente relevantes, como he argumentado anteriormente:
Cómo encontrar ideas de proyectos únicos de ciencia de datos que hagan destacar tu portfolio
Olvida Titanic y MNIST: Elige un proyecto único que desarrolle tus habilidades y te ayude a destacarte del resto
towardsdatascience.com
Sin embargo, si buscas en línea “conjuntos de datos de abandono”, encontrarás que (al momento de escribir esto) solo hay dos conjuntos de datos principales disponibles públicamente: el conjunto de datos de abandono de clientes bancarios y el conjunto de datos de abandono de telecomunicaciones. Estos conjuntos de datos son un excelente lugar para comenzar, pero es posible que no reflejen el tipo de datos requeridos para modelar el abandono en otras industrias.
En su lugar, podrías intentar crear datos sintéticos que sean más adaptados a tus requisitos.
Si esto parece demasiado bueno para ser verdad, aquí hay un conjunto de datos de ejemplo que creé con solo un breve mensaje a ese viejo clásico, ChatGPT:

Por supuesto, ChatGPT está limitado en la velocidad y el tamaño de los conjuntos de datos que puede crear, por lo que si deseas ampliar esta técnica, te recomendaría que uses la biblioteca Python faker
o las funciones sklearn.datasets.make_classification
y sklearn.datasets.make_regression
de scikit-learn. Estas herramientas son una forma fantástica de generar conjuntos de datos enormes programáticamente en un abrir y cerrar de ojos, y son perfectas para construir modelos de prueba de concepto sin tener que pasar mucho tiempo buscando el conjunto de datos perfecto.
En la práctica, rara vez he necesitado usar técnicas de creación de datos sintéticos para generar conjuntos de datos completos (y, como explicaré más adelante, sería prudente tener precaución si tienes la intención de hacerlo). En cambio, encuentro que esta es una técnica realmente útil para generar ejemplos adversos o agregar ruido a tus conjuntos de datos, lo que me permite probar las debilidades de mis modelos y construir versiones más robustas. Pero, independientemente de cómo uses esta técnica, es una herramienta increíblemente útil para tener a tu disposición.
Pide datos a una empresa (de manera amable)
Crear datos sintéticos es una buena solución cuando no se encuentra el tipo de datos que se busca, pero el problema obvio es que no hay garantía de que los datos sean una buena representación de las poblaciones del mundo real.
Si quieres garantizar que tus datos son realistas, la mejor manera de hacerlo es, sorprendentemente…
… en realidad, salir a buscar algunos datos reales.
Una forma de hacerlo es contactar a empresas que podrían tener esos datos y preguntar si estarían interesadas en compartirlos contigo. Es obvio que ninguna empresa te dará datos altamente confidenciales o si planeas usarlos con fines comerciales o poco éticos. Eso sería simplemente estúpido.
Sin embargo, si tienes la intención de usar los datos para investigación (por ejemplo, para un proyecto universitario), es posible que encuentres empresas dispuestas a proporcionar datos si se trata de un acuerdo de investigación conjunta en el que ambas partes se beneficien.
¿Qué quiero decir con esto? En realidad, es bastante simple: me refiero a un acuerdo en el que ellos te proporcionan algunos datos (anonimizados/desensibilizados) y tú los utilizas para realizar una investigación que les beneficie. Por ejemplo, si estás interesado en estudiar la modelización de la rotación, podrías presentar una propuesta para comparar diferentes técnicas de predicción de rotación. Luego, comparte la propuesta con algunas empresas y pregunta si hay potencial para trabajar juntos. Si eres persistente y lanzas una red amplia, es probable que encuentres una empresa dispuesta a proporcionarte datos para tu proyecto, siempre y cuando compartas tus hallazgos con ellos para que puedan obtener un beneficio de la investigación.
Si suena demasiado bueno para ser verdad, puede sorprenderte saber que esto es exactamente lo que hice durante mi maestría. Me puse en contacto con un par de empresas con una propuesta de cómo podría utilizar sus datos para una investigación que les beneficiara, firmé algunos papeles para confirmar que no usaría los datos para ningún otro propósito y realicé un proyecto realmente divertido usando algunos datos del mundo real. Realmente se puede hacer.
Lo que me gusta especialmente de esta estrategia es que proporciona una forma de ejercitar y desarrollar un conjunto bastante amplio de habilidades que son importantes en Ciencia de Datos. Tienes que comunicarte bien, mostrar conciencia comercial y convertirte en un profesional en la gestión de las expectativas de las partes interesadas, todas las cuales son habilidades esenciales en la vida cotidiana de un Científico de Datos.
Busca en los repositorios donde los académicos almacenan el código para sus artículos de revistas
Muchos conjuntos de datos utilizados en estudios académicos no se publican en plataformas como Kaggle, pero aún están disponibles públicamente para ser utilizados por otros investigadores.
Una de las mejores formas de encontrar conjuntos de datos como estos es buscando en los repositorios asociados con los artículos de revistas académicas. ¿Por qué? Porque muchas revistas requieren que sus colaboradores hagan públicos los datos subyacentes. Por ejemplo, dos de las fuentes de datos que utilicé durante mi maestría (el conjunto de datos Fragile Families y el sitio web de datos sobre discurso de odio) no estaban disponibles en Kaggle; los encontré a través de artículos académicos y sus repositorios de código asociados.
¿Cómo puedes encontrar estos repositorios? En realidad, es sorprendentemente simple: empiezo abriendo paperswithcode.com, busco artículos en el área que me interesa y miro los conjuntos de datos disponibles hasta que encuentro algo interesante. En mi experiencia, esta es una forma realmente ingeniosa de encontrar conjuntos de datos que no han sido explotados hasta la saciedad en Kaggle.
BigQuery Public Datasets
Sinceramente, no tengo idea de por qué más personas no aprovechan los conjuntos de datos públicos de BigQuery. Hay literalmente cientos de conjuntos de datos que cubren todo, desde las tendencias de búsqueda de Google hasta los alquileres de bicicletas de Londres hasta el secuenciamiento genómico de cannabis.
Una de las cosas que me gusta especialmente de esta fuente es que muchos de estos conjuntos de datos son increíblemente relevantes desde el punto de vista comercial. Puedes olvidarte de los temas académicos de nicho como la clasificación de flores y la predicción de dígitos; en BigQuery, hay conjuntos de datos sobre problemas empresariales del mundo real, como el rendimiento de los anuncios, las visitas al sitio web y las previsiones económicas.
Mucha gente evita estos conjuntos de datos porque se requieren habilidades de SQL para cargarlos. Pero incluso si no conoces SQL y solo conoces un lenguaje como Python o R, todavía te animaría a que dediques una o dos horas para aprender algunos conceptos básicos de SQL y luego comiences a hacer consultas en estos conjuntos de datos. No lleva mucho tiempo ponerse en marcha y esto realmente es un tesoro de activos de datos de alto valor.
Para usar los conjuntos de datos en BigQuery Public Datasets, puedes registrarte para obtener una cuenta completamente gratuita y crear un proyecto de sandbox siguiendo las instrucciones aquí. No necesitas ingresar los detalles de tu tarjeta de crédito ni nada parecido, solo tu nombre, tu correo electrónico, un poco de información sobre el proyecto y ya estás listo para empezar. Si necesitas más potencia de cómputo en una fecha posterior, puedes actualizar el proyecto a uno de pago y acceder a los recursos de cómputo de GCP y a las funciones avanzadas de BigQuery, pero personalmente nunca he necesitado hacer esto y he encontrado que el sandbox es más que suficiente.
Prueba un motor de búsqueda de conjuntos de datos
Mi último consejo es que pruebes a usar un motor de búsqueda de conjuntos de datos. Estas son herramientas increíbles que solo han surgido en los últimos años y hacen que sea muy fácil ver rápidamente lo que está disponible. Tres de mis favoritos son:
- Harvard Dataverse
- Google Dataset Search
- Papers with Code
En mi experiencia, buscar con estas herramientas puede ser una estrategia mucho más efectiva que usar motores de búsqueda genéricos, ya que a menudo se te proporciona metadatos sobre los conjuntos de datos y tienes la capacidad de clasificarlos según con qué frecuencia se han utilizado y la fecha de publicación. Una forma bastante ingeniosa, si me lo preguntas.
¡Gracias por leer! Espero que encuentres útiles estas 5 estrategias y no dudes en contactarme si tienes algún comentario o pregunta 🙂
Una cosa más: ¿podrías estar en mi 1%?
Menos del 1% de mis lectores en Zepes hacen clic en mi botón ‘Seguir’, así que realmente significa mucho cuando lo haces, ya sea aquí en Zepes, en Twitter o en LinkedIn.
Si deseas obtener acceso ilimitado a todas mis historias (y al resto de Zepes.com), puedes registrarte a través de mi enlace de referencia por $5 al mes. No agrega ningún costo adicional para ti en comparación con registrarte a través de la página de registro general y ayuda a apoyar mi escritura ya que recibo una pequeña comisión.