21 Hojas de Trucos Imprescindibles para Entrevistas de Ciencia de Datos Desbloqueando Tu Camino hacia el Éxito
'21 Hojas de Trucos para Entrevistas de Ciencia de Datos'
Este artículo ha investigado y presenta las mejores hojas de trucos de ciencia de datos de todo internet, para que no tengas que hacerlo tú mismo.
Con la ciencia de datos siendo un campo tan amplio y constantemente en desarrollo, es realmente imposible tener todo el conocimiento en tu cabeza. Especialmente si parte de este conocimiento lo usas solo de vez en cuando. Además, si eres principiante en un campo determinado, deberás actualizar con frecuencia lo que aprendiste hasta que se convierta en conocimiento actual en la intersección de la teoría y la práctica.
Tener algo a lo que puedas mirar y obtener la información que necesitas de un vistazo sería muy útil, ¿verdad? Ese ‘algo’ se llama hoja de trucos. Y no tiene nada que ver con hacer trampa. Se utilizan para aprender y revisar lo que ya sabes.
Debido a su intención de ser (relativamente) conciso y de alto nivel, tener una sola hoja de trucos para toda la ciencia de datos superaría su propósito. Incluso si fuera posible crear tal hoja de trucos. Debido a eso, tendrás que usar diferentes hojas de trucos para los diversos campos de la ciencia de datos.
- Cadena de pensamiento facilita las habilidades de razonamiento de L...
- Encontrar patrones temporales en publicaciones de Twitter Análisis ...
- La caja de herramientas del científico de datos aprovechando las me...
Intenté reducir esto a las hojas de trucos que cubren los conceptos que un científico de datos no puede ignorar. Puedes leerlo como una hoja de trucos sobre hojas de trucos que habla de:
- Lenguajes de codificación
- SQL
- Python
- R
- Algoritmos y Modelos
- Estructuras de datos
- Visualización de datos
- Probabilidad y estadística
- Manipulación de datos
Lenguajes de Codificación
Conocer los lenguajes de codificación es la base sobre la que se construyen todas las demás partes de la ciencia de datos. Especialmente popular en la comunidad de ciencia de datos es la trinidad sagrada de los lenguajes de codificación:
- SQL
- Python
- R
SQL
El lenguaje diseñado específicamente para consultar bases de datos, SQL es un campeón cuando se trata de extracción y manipulación de datos.
Hoja de trucos: Hoja de trucos básicos de SQL
Enlace: https://learnsql.com/blog/sql-basics-cheat-sheet/
Lo que obtienes: Esta hoja de trucos se centra en permitirte escribir consultas funcionales de SQL desde el principio. Para hacer eso, deberás estar familiarizado con ciertos conceptos. Estos son la consulta de una sola tabla, la filtración de datos y la consulta de varias tablas utilizando los JOIN. También se cubren las funciones de agregado, subconsultas y operadores de conjunto (UNION, INTERSECT, EXCEPT).
Además de una breve explicación de cada concepto, la hoja de trucos también te da una consulta basada en los datos de muestra para mostrarte cómo funciona todo en la práctica.
La hoja de trucos también se puede descargar en formato PDF o PNG, lo que la hace práctica para imprimir y tenerla a mano.
Hoja de trucos: La hoja de trucos esencial de comandos SQL para principiantes
Enlace: https://itechbrand.com/the-essential-sql-commands-cheat-sheet-for-beginners/
Lo que obtienes: No hay ejemplos de código y datos como en la hoja de trucos anterior. Esta simplemente lista los comandos en SQL que todos necesitan. Es genial cuando quieres recordar lo que hace una determinada palabra clave. También cubre temas adicionales, como la creación y edición de tablas, restricciones, datos, desencadenadores, vistas y expresiones de tabla comunes (CTE).
Hoja de trucos: Hoja de trucos de SQL – Conceptos técnicos para la entrevista de trabajo
Enlace: https://www.stratascratch.com/blog/sql-cheat-sheet-technical-concepts-for-the-job-interview/
Lo que obtienes: Centrada en los conceptos de SQL más críticos para hacer bien en una entrevista de trabajo, esta hoja de trucos cubre JOINs, funciones de tiempo y fecha, funciones de agregado, funciones de ventana y operadores de conjunto.
Cada tema y subtema técnico se explica brevemente verbalmente y utilizando una representación gráfica fácil de entender. Además, hay una pregunta de entrevista y el código de solución que cubre el tema en cuestión. El código se muestra en el widget, por lo que puedes jugar con él, lo que lo convierte en una hoja de trucos interactiva.
Python
Python es, por una razón, uno de los lenguajes de programación más comúnmente utilizados en la ciencia de datos. Destaca en todas las áreas requeridas. Realmente hace todo, desde la extracción y manipulación de datos o el análisis estadístico y visualización de datos hasta el aprendizaje automático, la implementación de modelos y la automatización.
Hoja de trucos: Hoja de trucos de Python
Enlace: https://websitesetup.org/python-cheat-sheet/
Lo que obtienes: Esta hoja de trucos muy completa pero muy clara es perfecta para cualquier persona que quiera tener una base para comenzar a trabajar en Python. Explica los principales tipos de datos en Python, incluyendo la creación y almacenamiento de cadenas y la realización de operaciones matemáticas en datos. También aprenderás sobre funciones integradas, creación de funciones, listas, tuplas y diccionarios.
La hoja de trucos continúa dándote una visión general de las declaraciones condicionales, bucles de Python, clases e incluso cómo manejar los errores de Python.
Puedes descargar la hoja de trucos en formato PDF o infografía (PNG).
Hoja de trucos: Hoja de trucos de Python
Enlace: https://programmingwithmosh.com/wp-content/uploads/2019/02/Python-Cheat-Sheet.pdf
Lo que obtienes: Una hoja de trucos bastante similar a la anterior. Cubre principalmente los mismos temas pero con menos detalles. Las explicaciones son excelentes y perfectas para principiantes que intentan comprender los conceptos básicos de Python.
La hoja de trucos se puede descargar en PDF.
Hoja de trucos: Hoja de trucos completa de Python
Enlace: https://github.com/gto76/python-cheatsheet
Lo que obtienes: Si bien los principiantes también pueden usar esta hoja de trucos, cubre muchos más temas de los necesarios a nivel básico. Aquí no hay mucho habla. El autor va a través de los temas, enumera las palabras clave y las explica brevemente. También proporciona el código de ejemplo y lo que devuelve.
Los temas tratados son colecciones, tipos, sintaxis, sistema, datos, avanzado y bibliotecas. Cada tema se divide en subtemas que hacen que esta hoja de trucos sea probablemente la única necesaria para la mayoría de los usuarios de Python.
R
El lenguaje de programación R es un poco menos flexible que Python, por lo que no es adecuado para la implementación de modelos. Se crea para el análisis estadístico y la visualización de datos. No es su único propósito porque también se usa mucho para la extracción y manipulación de datos, el aprendizaje automático y la automatización.
Hoja de trucos: Hojas de trucos de RStudio
Enlace: https://www.rstudio.com/resources/cheatsheets/
Lo que obtienes: Estos recursos son probablemente los únicos que necesitarás cuando se trata de hojas de trucos de R. Hay una cantidad extensa de hojas de trucos y temas cubiertos. Los usuarios contribuyeron con las hojas de trucos que cubren R básico y avanzado.
La hoja de trucos Base R habla sobre vectores, programación, tipos de datos, funciones matemáticas, estadísticas y otros temas.
La hoja de trucos avanzada de R será útil para aquellos interesados en entornos, estructuras de datos, sistemas orientados a objetos, funciones, subconjuntos, depuración, manejo de condiciones y programación defensiva.
Puedes encontrar muchas más hojas de trucos en el sitio web fuente dedicado al tema R particular. Por ejemplo, manejo de fechas y horas, cadenas, transformación de datos, ordenamiento, visualización, aprendizaje profundo, etc.
Estructuras de datos
Los científicos de datos deben estar familiarizados con las estructuras de datos como una forma de organizar y almacenar datos. Lo más probable es que no estés utilizando todas las posibles estructuras de datos todo el tiempo. Cuando llegue el momento de usar una estructura de datos que no hayas usado (muy a menudo), las hojas de trucos pueden proporcionarte una idea general sobre la estructura de datos en cuestión.
Hoja de trucos: Referencia de estructuras de datos
Enlace: https://www.interviewcake.com/data-structures-reference
Lo que obtienes: Enumera todas las estructuras de datos con definiciones cortas y representación visual, lo que es excelente para una referencia rápida. Si deseas más detalles sobre cada estructura de datos, puedes hacer clic en ella y obtener información detallada, como las fortalezas y debilidades de cada una, cómo funciona la inserción y eliminación, y una explicación de sus características específicas.
Hoja de trucos: Una hoja de trucos ejecutable de estructuras de datos para entrevistas
Enlace: https://algodaily.com/lessons/an-executable-data-structures-cheat-sheet
Lo que obtienes: Esta también te brinda explicaciones de todas las estructuras de datos, sus pros y contras, y usos notables. La hoja de trucos proporciona recursos adicionales para aprender más sobre cada estructura de datos.
Además, cada estructura de datos tiene un código de ejemplo en JavaScript, Python y Java que puedes ejecutar y ver lo que devuelve. También hay un video que te guía a través de la hoja de datos completa y te ayuda a entenderla mejor.
Manipulación de datos
La manipulación, limpieza o transformación de datos es cuando se transforman los datos crudos en un formato utilizable para un análisis y procesamiento posterior. En ciencia de datos, esto se hace generalmente a través de Python y su biblioteca pandas.
Cheat sheet: Hoja de referencia de Pandas para Ciencia de Datos
Link: https://datascientyst.com/pandas-cheat-sheet-for-data-science/
Lo que obtienes: Perfecto para principiantes, esta hoja de referencia muestra los códigos para los principales comandos en pandas y explica lo que cada código devolverá. Los temas cubiertos son la configuración de pandas, las estructuras de datos, la importación y exportación de datos, la inspección de los mismos y la selección. También aprenderás cómo agregar y eliminar filas/columnas, ordenar, filtrar, agrupar, convertir, fusionar y concatenar datos, y aplicar funciones. Cada tema viene acompañado de una representación gráfica fácil de entender.
Cheat sheet: Hoja de referencia de Pandas
Link: https://geekyhumans.com/pandas-cheat-sheet/#Making-changes-to-the-data
Lo que obtienes: En general, cubre todos los temas como la hoja de referencia anterior. La diferencia es que la explicación se realiza principalmente mostrando el código y su salida en lugar de simplemente explicarlo.
Cheat sheet: Hoja de referencia de Data Wrangling con pandas
Link: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
Lo que obtienes: Una hoja de referencia detallada dedicada exclusivamente al Data Wrangling. Cubre la creación de DataFrames, el encadenamiento de métodos, la remodelación de datos, el manejo de filas y columnas, el uso de consultas, la resumen y agrupación de datos, el manejo de datos faltantes, la creación de nuevas columnas, la combinación de conjuntos de datos, el uso de ventanas y la graficación. Cada tema está visualmente explicado y descrito brevemente, y se muestra cada palabra clave de pandas usando el código y su salida.
Visualización de datos
Visualizar datos es una parte importante del trabajo de un científico de datos. De alguna manera, es el momento en que algo comprensible solo para otros científicos de datos también se puede hacer comprensible para las personas ‘ordinarias’. Puede ser una visualización del análisis de datos o de las perspectivas del modelo. Cualquiera que sea, la hoja de referencia podría ser útil.
Cheat sheet: Hoja de referencia de Visualización de Datos
Link: http://www.biosci.global/customer-stories-en/data-visualization-cheat-sheet/
Lo que obtienes: Es una buena visión general de los gráficos utilizados en la visualización de datos. Además de cada tipo de gráfico, hay una breve explicación de lo que representa y la imagen que lo muestra, para que puedas visualizar fácilmente cómo se vería cada gráfico.
También hay una visión general visual de los criterios para elegir el gráfico adecuado para tu visualización.
Cheat sheet: Hoja de referencia de Visualización de Datos
Link: https://www.kaggle.com/getting-started/160583
Lo que obtienes: No hay explicaciones de los gráficos. Pero todos los gráficos están representados visualmente aquí y se dividen en secciones según su propósito en la visualización de datos. Perfecto para principiantes y cualquier persona que quiera verificar rápidamente si eligió el gráfico correcto y si hay algunas opciones mejores.
Cheat sheet: Hojas de referencia de Visualización de Datos
Link: https://medium.com/responsibleml/data-visualization-cheat-sheets-1c12ba8a7671
Lo que obtienes: Aquí hay varias hojas de referencia que giran en torno al tema de hacer un buen gráfico. No solo habla de elegir el gráfico correcto. Las hojas de referencia van más allá del detalle, dando consejos, dos y don’ts sobre cómo presentar datos en mapas, elegir los colores correctos (incluidos los de las personas con discapacidad visual), hacer que el gráfico sea más legible, elegir los ejes del gráfico, y representar la línea de tiempo. Todas las hojas de referencia se pueden descargar en PDF.
Estadística y Probabilidad
Tener un amplio conocimiento de estadística y, más específicamente, de probabilidad, es imprescindible para cualquier científico de datos. Lo utilizan en casi todas las partes de su trabajo: desde el análisis de datos hasta la construcción, prueba y evaluación de modelos. Como la estadística es una disciplina extensa, es posible que solo utilice una parte en su trabajo. Para aquellos temas de estadística que son nuevos para usted o que no utiliza con frecuencia, necesitará una buena hoja de trucos para ayudarse.
Hoja de trucos: Una completa hoja de trucos de estadística para entrevistas de ciencia de datos
Enlace: https://www.stratascratch.com/blog/a-comprehensive-statistics-cheat-sheet-for-data-science-interviews/
Lo que obtienes: Esta hoja de trucos cubre todos los temas de estadística que la mayoría de los científicos de datos necesitarán. Estos son intervalos de confianza, pruebas de hipótesis, estadísticas Z y estadísticas T, pruebas A/B, regresión lineal, reglas de probabilidad, teorema de Bayes y combinaciones y permutaciones. Hay explicaciones detalladas de todos estos conceptos, con fórmulas, representaciones gráficas y ejemplos.
Hoja de trucos: La hoja de trucos de estadística más completa
Enlace: https://terenceshin.medium.com/week-2-52-stats-cheat-sheet-ae38a2e5cdc6
Lo que obtienes: En general, cubre uno o dos temas como la hoja de trucos anterior. Sin embargo, la mayoría de los conceptos de estadística aquí son diferentes. Son tipos de datos, medidas de tendencia central (media, mediana, moda), medidas de variabilidad (rango, varianza, desviación estándar…), medidas de la relación entre variables (covarianza y correlación), funciones de distribución de probabilidad, distribuciones de datos continuos y discretos, momentos y precisión.
Hoja de trucos: Hoja de trucos de estadística
Enlace: https://web.mit.edu/~csvoss/Public/usabo/stats_handout.pdf
Lo que obtienes: Esta hoja de trucos en general no cubre nada que no esté cubierto por las dos hojas de trucos anteriores. Sin embargo, aparte de las explicaciones teóricas, esta ofrece ejemplos muy elaborados que seguramente le harán entender el concepto en cuestión.
Algoritmos y Modelos
Todos los temas mencionados anteriormente generalmente sirven como base para la tarea final del científico de datos: escribir algoritmos y crear modelos. Aquí es donde el conocimiento de estadística y codificación se encuentra con el conocimiento de encontrar una buena hoja de trucos que cubra algoritmos y modelos.
Hoja de trucos: Los mejores algoritmos de predicción
Enlace: https://blog.dataiku.com/machine-learning-explained-algorithms-are-your-friend
Lo que obtienes: Esta hoja de trucos explica el aprendizaje automático en términos generales, así como los algoritmos más populares. Estos son la regresión lineal y logística, árbol de decisión, bosque aleatorio, aumento de gradiente y redes neuronales. Una característica muy agradable es una infografía que describe cada algoritmo, sus ventajas y desventajas.
Hoja de trucos: Tu hoja de trucos definitiva de matemáticas y estadísticas de ciencia de datos
Enlace: https://towardsdatascience.com/your-ultimate-data-science-statistics-mathematics-cheat-sheet-d688a48ad3db
Lo que obtienes: Una explicación detallada de las métricas de aprendizaje automático. Cubre los temas de métricas de clasificadores, métricas de regresión, indicadores estadísticos y tipos de distribución. Las explicaciones son detalladas, con representaciones gráficas claras, fórmulas y ejemplos.
Hoja de trucos: Hoja de trucos para modelos de aprendizaje automático
Enlace: https://medium.com/analytics-vidhya/machine-learning-models-cheatsheet-7885b33ca44f
Lo que obtienes: Nuevamente, una hoja de trucos muy detallada que se centra en algoritmos para el aprendizaje automático. Las explicaciones son detalladas; contienen ejemplos y, lo más importante, los pasos para construir cada algoritmo. El autor cubre los siguientes temas: regresión lineal múltiple, regresión de árbol de decisión, regresión logística, clasificador de Bayes ingenuo, evaluación del rendimiento de clasificadores binarios, curva ROC, máquina de vectores de soporte (SVM), bosque aleatorio, agrupamiento k-means, vecinos más cercanos k (k-NN), agrupamiento jerárquico, análisis de componentes principales (PCA), análisis discriminante lineal (LDA), procesamiento de datos de texto, algoritmos de ranking.
Conclusión
En este artículo, cubrí la codificación, estructuras de datos, manipulación de datos, visualización de datos, estadística y probabilidad, y modelos y algoritmos. Por supuesto, no son los únicos temas que debe cubrir un científico de datos. Pero son los temas que la mayoría de los científicos de datos necesitarán en sus carreras.
Las hojas de trucos que recomendé son una lista reducida de buenas hojas de trucos que creo que cubren mejor el tema en cuestión. Te mantendrán cubierto en la mayoría de los casos, y creo que al menos son un buen punto de partida.
Nate Rosidi es un científico de datos y estratega de productos. También es profesor adjunto que enseña análisis y es el fundador de StrataScratch, una plataforma que ayuda a los científicos de datos a prepararse para sus entrevistas con preguntas reales de las principales empresas. Conéctese con él en Twitter: StrataScratch o LinkedIn.