Regex para el científico de datos moderno – Parte 2

Regex para científicos de datos - Parte 2

Continuemos nuestra inmersión en el mundo intrigante de RegEx y descubramos su importancia para los científicos de datos y los ingenieros de software.

En el artículo anterior, analizamos los elementos fundamentales de RegEx. Descubrimos cómo los patrones pueden considerarse como una alternancia de secuencias de caracteres (qué coincidir), cuantificadores (cuántas veces) y posicionales (dónde coincidir). Ahora, en la segunda parte de esta guía práctica de RegEx, nos adentraremos más en el uso práctico de los patrones de RegEx, centrándonos en las funciones esenciales de Python.

Imagen del autor.

RegEx en Python

Entre Numpy, Pandas y Scikit-Learn, la biblioteca de RegEx en Python se destaca como un pilar en el kit de herramientas del científico de datos. Ofrece un conjunto completo de características y funciones para permitir a los científicos de datos y programadores manipular texto de manera precisa y eficiente.

Python ofrece capacidades de RegEx a través de su módulo incorporado re. Esta biblioteca está completamente integrada en la biblioteca estándar de Python, lo que significa que si instalaste la última versión de Python, no necesitas instalar RegEx por separado.

Para importar RegEx, simplemente debes ejecutar:

import re

Funciones de RegEx

Una de las preguntas más frecuentes que surgen al aprender RegEx es “¿Para qué puedo usar el patrón de RegEx, símbolos y caracteres especiales?”. Las funciones de RegEx son parte de la respuesta. Desempeñan un papel fundamental en cerrar la brecha entre los patrones y las aplicaciones prácticas. En otras palabras, son responsables de traducir esos patrones abstractos en resultados tangibles.

Este artículo trata sobre las funciones más frecuentemente utilizadas, que resumo de la siguiente manera:

  • match(): verifica si una cadena contiene el patrón al principio y devuelve un objeto de coincidencia
  • findall(): devuelve todas las ocurrencias del patrón encontradas en una cadena
  • search(): verifica si una cadena contiene el patrón y devuelve un objeto de coincidencia
  • split(): divide una cadena en una lista de subcadenas
  • sub(): reemplaza un patrón con una subcadena especificada