Aprendiendo nuevas habilidades de Ciencia de Datos, de la manera correcta

Aprendiendo Ciencia de Datos de forma correcta

Normalmente pensamos en las curvas de aprendizaje como líneas ordenadas, suaves y siempre en aumento. Sin embargo, si observamos detenidamente cualquier proceso de aprendizaje, veremos numerosos descensos y mesetas en el camino. En realidad, incluso los profesionales experimentados se sienten como principiantes cuando se enfrentan a una nueva herramienta o flujo de trabajo.

Esta semana, hemos recopilado algunos de nuestros tutoriales y guías introductorias favoritas. No requieren muchos, o incluso ningún requisito previo para los profesionales de datos y aprendizaje automático. Cubren temas muy diferentes, desde el aprendizaje profundo hasta la detección de anomalías, pero comparten un fuerte compromiso con explicaciones pacientes, detalles concretos y contextualización experta. Así que si te encuentras en un momento de estancamiento en tu aprendizaje, elige cualquiera de nuestros puntos destacados a continuación: seguramente te ayudarán a salir de ese bache.

  • A veces tiene mucho sentido sumergirse en lo más profundo: ¿por qué no implementar y entrenar una red neuronal convolucional (CNN) desde cero? Tendrás las instrucciones paso a paso de Betty LD para guiarte en el proceso; si has estado pensando en experimentar con la biblioteca PyTorch Lightning, esta es tu oportunidad.
  • Este parece haber sido el verano de los grandes modelos de lenguaje de código abierto, con un nuevo ejemplar apareciendo en escena cada pocos días. La nueva publicación de Donato Riccio es una introducción amigable para principiantes a todo lo relacionado con Llama, Alpaca y más, y cubre los conceptos básicos de la afinación y el trabajo con estos LLMs.
Foto de Giulia Bertelli en Unsplash
  • ¿Quieres sumergirte un poco más en el mundo de los LLM de código abierto? No necesitas flotadores: Shawhin Talebi está aquí para ayudarte a familiarizarte con la biblioteca Transformers de Hugging Face, que ofrece “una forma fácil y gratuita de trabajar con una amplia variedad de modelos de lenguaje de código abierto”.
  • Para una perspectiva fresca sobre un enfoque de aprendizaje automático más tradicional, la última contribución de Evie Fowler describe los beneficios de utilizar métodos de detección de anomalías para abordar problemas creados por clases de resultados desequilibradas en el aprendizaje supervisado.

¿Por qué detenernos aquí? Si todavía tienes ganas de aprender, tenemos algunas lecturas excelentes que no deberías perderte:

  • Ruth Eneyi Ikwu examina cómo la colinealidad no controlada conduce a sesgos no deseados al analizar un conjunto de datos problemático.
  • ¿Existe un camino práctico hacia una IA sostenible? El artículo ganador de la competencia Kaggle de Leonie Monigatti explora posibles enfoques para mejorar la eficiencia de los modelos de aprendizaje profundo en la producción.
  • Si te apasiona el audio y los datos musicales, la inmersión profunda de Naman Agrawal en la extracción de características en el dominio del tiempo y la frecuencia es una lectura obligada.
  • Mark Ridley ofrece un análisis reflexivo sobre cómo el auge de la IA generativa puede afectar a los equipos de ingeniería de productos. (Prepárate: este es el primero de seis artículos de esta excelente serie).
  • Las descripciones de roles en ciencia de datos y aprendizaje automático evolucionan constantemente; Stephanie Kirmer se centra en los ingenieros de aprendizaje automático y se pregunta si su aparición puede ser un síntoma de una “feminización” de la ciencia de datos.
  • Pol Marin continúa explorando temas interesantes en análisis deportivo; su último objeto de estudio: la defensa del FC Barcelona (y sus descontentos).

¡Gracias por apoyar a nuestros autores! Si disfrutas de los artículos que lees en TDS, considera convertirte en miembro de VoAGI: desbloquea todo nuestro archivo (y cada otra publicación en VoAGI también).

Hasta la próxima Variable,

Los editores de TDS