La historia de éxito del científico de datos senior de Microsoft

Éxito del científico de datos senior de Microsoft

Introducción

En la era digital de hoy en día, el poder de los datos es innegable, y aquellos que poseen las habilidades para aprovechar su potencial están liderando la carga en la formación del futuro de la tecnología. Entre estos pioneros se encuentra un individuo excepcional, el Sr. Nirmal, un visionario en el ámbito de la ciencia de datos, que ha llegado a convertirse en una fuerza impulsora en uno de los gigantes tecnológicos más importantes del mundo, trabajando como Senior Data Scientist en Microsoft.

Conozca al Sr. Nirmal, la personificación de la perseverancia, la brillantez y la dedicación inquebrantable. Desde humildes comienzos, el Sr. Nirmal emprendió un viaje transformador que lo llevó a la cima de su carrera como Senior Data Scientist en Microsoft. Su ascenso meteórico sirve como una historia de éxito inspiradora, no solo para los aspirantes a científicos de datos, sino para cualquier persona con un sueño y la determinación de alcanzar la grandeza.

En este artículo de historia de éxito, profundizamos en el viaje del Sr. Nirmal, trazando los hitos clave, los desafíos y los triunfos que han dado forma a su carrera extraordinaria. Exploramos los proyectos innovadores que ha liderado, el impacto transformador que ha tenido y las valiosas lecciones que ha aprendido en el camino. A través de la historia del Sr. Nirmal, descubrimos los rasgos y la mentalidad necesarios para prosperar en el mundo siempre cambiante de la ciencia de datos.

¡Comencemos con la conversación!

AV: Destaque su trayectoria profesional, antecedentes educativos y cómo le ayudaron a conseguir su primer trabajo como científico de datos.

Sr. Nirmal: Mi trayectoria profesional nunca ha sido una línea recta. Todos tenemos nuestras propias historias y estoy seguro de que todas son interesantes. Aquí está la mía: completé mi licenciatura en Ingeniería de TI en Nepal. Me mudé a Estados Unidos en 2007 para obtener mi maestría. Después de completar mi maestría, me uní al Ejército de Estados Unidos. Sí, suena muy poco común. Debido a la gran recesión en Estados Unidos alrededor de 2009 (que también resultó ser mi año de graduación), el mercado laboral estaba muy mal, especialmente para los estudiantes internacionales. Había un programa piloto especial dirigido por el Ejército de Estados Unidos y pasé por todos los procesos requeridos para convertirme en miembro del servicio. Desde pequeño, tenía cierta pasión por unirme al ejército. Qué manera de cumplir eso.

Mientras estaba en el ejército, completé mi MBA. En 2014, después de que se completara mi primer contrato de alistamiento, dejé el Ejército de Estados Unidos. En el mismo año, obtuve mi primer puesto en el ámbito de los datos como Analista de Seguridad Cibernética, trabajando como empleado del gobierno federal de Estados Unidos para el Departamento de la Marina. Completé mi tercera maestría en Ciencia de Datos mientras trabajaba en este empleo. Después de adquirir experiencia trabajando como Analista de Datos y desarrollar credenciales académicas y habilidades en Ciencia de Datos, hice la transición a la industria privada ocupando mi primer puesto con el título de Científico de Datos en Wells Fargo Bank en 2018. Desde entonces, he estado en el ámbito de la ciencia de datos y actualmente trabajo como Senior Data Scientist en Microsoft.

AV: ¿Puede contarnos sobre un proyecto en el que haya trabajado en el que tuvo que utilizar datos para resolver un problema del mundo real y el impacto que tuvo en la estrategia empresarial o de producto?

Sr. Nirmal: Hay muchos ejemplos. En primer lugar, no es necesario tener el título de ‘Científico de Datos’ para trabajar y resolver problemas de datos. Hay algunos conceptos erróneos al respecto. Podemos trabajar como Analistas de Datos, Ingenieros de Datos, Analistas de Negocios o cualquier otro título relacionado con el trabajo con datos.

Trabajo principalmente en el ámbito de la ciberseguridad. Dos de las áreas principales en las que nos enfocamos son la investigación y la detección. Al tratar problemas de ciberseguridad, uno de los espacios de problemas más populares es la detección de anomalías. He trabajado en un equipo de ciencia de datos para construir sistemas de detección de anomalías, lo que ayuda a los analistas de seguridad a ahorrar tiempo al determinar en qué eventos/alertas deben centrarse. El impacto se refleja en el ahorro de tiempo y recursos para ellos.

AV: ¿Cuál fue el problema más desafiante que ha resuelto utilizando la ciencia de datos? ¿Cómo abordó el problema? ¿Cuál fue el resultado?

Mr. Nirmal: Yo diría que el problema más desafiante para mí aún no ha sido resuelto. Como vivimos en un mundo de IA altamente innovadora, siempre debemos ser conscientes de que los adversarios ahora tienen las herramientas más avanzadas que nunca. Sin embargo, si tengo que mencionar un problema interesante, elegiría el análisis del comportamiento del usuario, también conocido como análisis del comportamiento de la entidad del usuario, ampliamente conocido como UEBA en la industria. UEBA es un tipo de función de ciberseguridad que descubre las amenazas mediante la identificación de la actividad del usuario que se desvía de una línea base normal.

Un ejemplo sencillo: Tenemos un usuario que suele iniciar sesión desde la ubicación A, y de repente vemos actividad de inicio de sesión desde la ubicación B. Esto podría ser normal relacionado con un viaje, pero sigue siendo una desviación del comportamiento normal, por lo que se debe analizar para confirmar la normalidad versus la malicia. La parte más desafiante de UEBA es comprender y crear la línea base.

Información basada en datos

AV: ¿Podrías compartir una historia sobre un momento en el que tuviste que comunicar ideas complejas basadas en datos a partes interesadas no técnicas? ¿Cómo te aseguraste de que comprendieran las ideas y el impacto que tuvieron en el negocio?

Mr. Nirmal: Como científico de datos, nos encontraremos con múltiples escenarios como estos. La mayoría de las partes interesadas del negocio conocen bien su problema y las soluciones previstas. Sin embargo, a veces es difícil explicarles por qué algunas soluciones tienen sentido y por qué otras no. Puedo compartir un ejemplo. Construimos un modelo de detección de fraudes, era un clasificador binario con transacciones fraudulentas frente a transacciones no fraudulentas. Los analistas de fraudes conocen bien su dominio. Pero para nosotros, explicar los resultados del modelo a ellos fue un desafío para descomponerlo en su lenguaje.

Si compartimos detalles como el ajuste del modelo y los hiperparámetros o la validación cruzada o los métodos de muestreo, estas cosas tendrán menos sentido para ellos. Sin embargo, si lo interpretamos en niveles superiores, como qué atributos encontramos útiles según la clasificación de características, cuáles son algunos desafíos con las clases desequilibradas, esas cosas tendrán sentido para ellos. Por lo tanto, siempre es importante que un científico de datos hable también en el lenguaje empresarial.

AV: ¿Cómo te aseguras de que los modelos de aprendizaje automático que tu equipo construye sean explicables y transparentes para los usuarios finales, especialmente en el contexto de la seguridad y la detección de amenazas?

Mr. Nirmal: Como mencioné en un ejemplo anterior, la interoperabilidad del modelo es muy importante cuando se trata de explicarlo a los socios comerciales. Esto es importante independientemente del dominio en el que estés trabajando. En seguridad y detección de amenazas, se vuelve más importante porque cualquier cosa que construyamos como modelo debe ser explicable para los analistas de amenazas para que puedan tomar las medidas adecuadas. Un buen ejemplo que puedo compartir aquí es el concepto de Positivo Benigno. Cuando escuché por primera vez este término, estaba un poco confundido, ya que solo conocía los verdaderos positivos y los falsos positivos. Pero en el ámbito de la seguridad, los positivos benignos son importantes. Aquí se detallan esas categorías:

  • Verdadero positivo (VP): Una acción maliciosa detectada por una herramienta de seguridad.
  • Positivo benigno verdadero (PB-VP): Una acción detectada por una herramienta de seguridad que es real, pero no maliciosa, como una prueba de penetración o una actividad conocida generada por una aplicación aprobada.
  • Falso positivo (FP): Una falsa alarma, lo que significa que la actividad no ocurrió.

AV: ¿Alguna vez has encontrado una situación en la que los datos con los que estabas trabajando estuvieran desordenados o incompletos? ¿Cómo lo manejaste y cuál fue el resultado?

Mr. Nirmal: Esto sucede todo el tiempo. Si un científico de datos dice que tiene datos limpios con los que trabajar, eso sería como ganar la lotería para él/ella. Los proyectos del mundo real no son como la competencia de Kaggle donde los datos vienen en su mayoría limpios en archivos CSV. Pasamos más tiempo en las necesidades de datos, trabajando con los propietarios de datos para el contrato de datos, la recolección de datos. Estas son cosas que suceden incluso antes de que ocurra el análisis exploratorio de datos (EDA).

La mayoría de las veces, nos encontramos con datos desordenados con algunas discrepancias en el esquema. La versión de los datos es importante, donde hacemos un seguimiento de cada versión de los datos cuando iteramos varias veces para orquestar la canalización de extracción, transformación y carga (ETL) hasta obtener los datos correctos. Existe un concepto de observabilidad de datos que significa exactamente lo mismo que mencioné aquí. Se trata de obtener los datos correctos en los destinos correctos, en los formatos correctos y en el momento correcto.

 

AV: ¿Puede hablarnos sobre un proyecto en el que colaboró con un equipo para lograr un objetivo común? ¿Cómo contribuyó al éxito del equipo? ¿Qué aprendió de la experiencia?

Sr. Nirmal: En Microsoft, seguimos algo llamado ‘One Microsoft’, que se centra en desarrollar servicios y productos que adopten la cultura de colaboración entre los equipos para innovar conceptos novedosos y trabajar en conjunto, en lugar de trabajar de manera aislada. Casi todos los proyectos en los que he trabajado son en colaboración con otros equipos, que podrían ser contrapartes de ingeniería o equipos externos. Una buena cosa de la cultura de Microsoft es que nos hacen enfocarnos en construir sistemas sobre servicios existentes, en lugar de reinventar la rueda. Esto no solo promueve la construcción de relaciones con otros equipos, sino que también ahorra tiempo y recursos para la empresa. Personalmente, he aprendido muchas cosas trabajando con diferentes equipos.

Proyectos de Seguridad de Datos

AV: Mencionaste que te encanta trabajar en la intersección de la seguridad y la ciencia de datos. ¿Podrías compartir una historia de éxito sobre un proyecto en el que utilizaste datos para mejorar las medidas de seguridad o prevenir violaciones de seguridad? ¿Cuál fue el impacto del proyecto?

Sr. Nirmal: Esta es una excelente pregunta. Gracias por mencionarla. Dado que los datos están en todas partes, la ciencia de datos es aplicable en todos los ámbitos. Normalmente sugiero a los científicos de datos en etapa temprana que prueben múltiples caminos, al menos tengan tres áreas de interés para que puedan hacer prueba y error, al igual que entrenar modelos de aprendizaje automático, la selección de la trayectoria profesional es un proceso iterativo al comienzo de su carrera. La seguridad y la ciencia de datos es una de las combinaciones raras y únicas. El mercado laboral está en demanda y, en una economía difícil, la seguridad laboral también es más fuerte en este ámbito.

Para compartir mi historia, una de las mejores cosas para mí al estar en seguridad es que es un campo en constante evolución. Los hackers están ideando nuevas estrategias y herramientas, y tenemos que responder a eso en poco tiempo. Uno de los proyectos simples pero útiles desde el punto de vista empresarial, en el que participé, es la Clasificación de Alertas. A medida que los investigadores de seguridad encuentran diferentes patrones de ataque, ayudan a los ingenieros de seguridad a escribir reglas de detección, que a su vez generan alertas si hay una coincidencia o cumplimiento de las reglas. Sin embargo, el problema es que cada sistema genera miles de eventos que se convierten en alertas. La tasa de falsos positivos en esas alertas es alta.

Para equilibrar la seguridad y la eficiencia, desarrollamos un modelo de aprendizaje automático para categorizar las alertas en verdaderos positivos, positivos benignos y falsos positivos, clasificados por puntajes de riesgo. Esto permite a los analistas priorizar sus colas y evitar volúmenes abrumadores de alertas al tiempo que minimiza el riesgo de que los adversarios pasen desapercibidos.

Consejos sobre cómo manejar ideas inesperadas

AV: ¿Alguna vez ha encontrado una situación en la que los datos mostraran ideas inesperadas o sorprendentes? ¿Cuál es su sugerencia para tratar esos escenarios?

Sr. Nirmal: Una de las cosas que tendemos a pasar por alto durante la fase de análisis exploratorio de datos (EDA) es que es posible que no estemos haciendo las preguntas correctas a los datos. Si solo seguimos el proceso estándar de realizar estadísticas descriptivas, análisis uni o multivariado, mapas de calor de correlación, etc., que son pasos básicos de EDA, es posible que no encontremos ideas clave.

Un ejemplo: El proceso más común a seguir cuando encontramos valores atípicos en nuestros datos es eliminarlos, ya que distorsionarán la distribución. Sin embargo, eliminarlos no siempre es una buena idea y depende de su proyecto. ¿Qué pasa si estamos haciendo un proyecto de detección de anomalías, entonces los valores atípicos pueden ser esas anomalías que estamos tratando de encontrar? En este caso, eliminarlos de los datos de entrenamiento no es una decisión sabia. Siempre es mejor consultar con los expertos en el dominio antes de eliminar cualquier tipo de datos, incluso los datos faltantes.

Consejos para convertirse en un exitoso científico de datos

AV: ¿Qué consejo le darías a alguien que quiere convertirse en un exitoso científico de datos en una empresa tecnológica como Microsoft?

Sr. Nirmal: Mis sugerencias no se limitan solo a Microsoft, sino que se aplican en general a todas las industrias y empresas. Si tengo que resumir en pocas palabras:

  • Mantente hambriento de aprender cosas nuevas: La industria de la ciencia de datos siempre está en constante movimiento. El aprendizaje continuo es muy importante en este campo.
  • Construye tu red de contactos: Asiste a conferencias, sé parte de grupos de comunidades en LinkedIn, contribuye a la comunidad escribiendo artículos en plataformas populares de ciencia de datos como VoAGI o hacia la ciencia de datos. La networking ayuda mucho.
  • Enfócate en proyectos impactantes: El título de científico de datos puede llevarte a asumir muchas responsabilidades, algunos realizan trabajo de ingeniería de datos, otros realizan trabajo de análisis de datos. Sin embargo, te sugiero que te enfoques en proyectos de alto impacto donde puedas hacer que tus contribuciones sean más visibles y se puedan medir en resultados tangibles.

Conclusión

En conclusión, la historia de éxito del Sr. Nirmal sirve como un ejemplo brillante de las alturas increíbles que se pueden alcanzar cuando el talento, la oportunidad y la dedicación inquebrantable convergen. El científico de datos senior de Microsoft ha demostrado que el poder de los datos, cuando se aprovecha con brillantez y propósito, tiene el potencial de transformar industrias, dar forma al futuro y crear un legado que perdurará durante generaciones.

Por último, me gustaría agradecer a Analytics Vidhya por darme esta oportunidad de compartir mi experiencia. A todos los miembros de mi audiencia, no duden en conectarse conmigo en LinkedIn.