El comienzo de la extracción de información resaltar palabras clave y obtener frecuencias

Inicio extracción información resaltar palabras clave y obtener frecuencias

Un enfoque rápido para resaltar palabras clave de interés dentro de un documento PDF y calcular sus frecuencias.

Foto de Judy Velazquez en Unsplash

Introducción

Con la cantidad de información disponible aumentando cada día, tener la capacidad de recopilar rápidamente estadísticas relevantes sobre dicha información es importante para el mapeo de relaciones y adquirir una nueva perspectiva sobre datos redundantes. Hoy veremos la extracción de texto, también conocida como extracción de información, de los PDF y un enfoque rápido para formular hechos e ideas sobre diferentes corpus. El artículo de hoy se sumerge en el campo del Procesamiento del Lenguaje Natural (PLN), que es la capacidad de una computadora para comprender el lenguaje humano.

Extracción de información

Extracción de información (IE), según la definición de Jurafsky et al., es el “proceso para convertir información no estructurada incrustada en textos en datos estructurados” [1]. Una forma muy rápida de extracción de información no solo consiste en buscar si una palabra se encuentra dentro de un cuerpo de texto, sino también en calcular la frecuencia con la que se menciona esa palabra. Esto se apoya en la suposición de que cuantas más veces se mencione una palabra dentro de un cuerpo de texto, más importante es y su relación con el tema del corpus. Es importante tener en cuenta que la eliminación de palabras vacías es importante para este proceso. ¿Por qué? Bueno, si simplemente calcularas todas las frecuencias de palabras dentro de un corpus, la palabra “the” se mencionaría mucho. ¿Eso hace que esta palabra sea importante en términos de transmitir qué información hay dentro del texto? No, y por lo tanto quieres asegurarte de estar analizando las frecuencias de palabras que contribuyen al significado semántico de tus corpus.

IE puede llevar a la aplicación de otras técnicas de PLN en un documento. Estas técnicas van más allá del alcance de este artículo, pero consideré que eran interesantes e importantes de compartir.

La primera técnica es el Reconocimiento de Entidades Nombradas (NER). Según lo detallado por Jurafsky et al., “La tarea del reconocimiento de entidades nombradas (NER) es encontrar cada mención de una entidad nombrada en el texto y etiquetar su tipo” [1]. Esto es similar a la idea de buscar la…