Una Taxonomía del Procesamiento del Lenguaje Natural
Taxonomía del Procesamiento del Lenguaje Natural
Una visión general de diferentes campos de estudio y desarrollos recientes en NLP

Esta publicación se basa en nuestro artículo RANLP 2023 “Explorando el panorama de la investigación en Procesamiento del Lenguaje Natural”. Puedes leer más detalles allí.
Introducción
Como enfoque eficiente para comprender, generar y procesar textos en lenguaje natural, la investigación en procesamiento del lenguaje natural (NLP) ha mostrado una rápida expansión y amplia adopción en los últimos años. Dadas las rápidas evoluciones en NLP, obtener una visión general del dominio y mantenerla es difícil. Esta publicación tiene como objetivo proporcionar una visión estructurada de los diferentes campos de estudio de NLP y analizar las tendencias recientes en este ámbito.
Los campos de estudio son disciplinas académicas y conceptos que generalmente consisten en tareas o técnicas (pero no se limitan a ellas).
En este artículo, investigamos las siguientes preguntas:
- ¿Cuáles son los diferentes campos de estudio investigados en NLP?
- ¿Cuáles son las características y desarrollos a lo largo del tiempo de la literatura de investigación en NLP?
- ¿Cuáles son las tendencias actuales y las direcciones futuras del trabajo en NLP?
Aunque la mayoría de los campos de estudio en NLP son conocidos y definidos, actualmente no existe una taxonomía o esquema de categorización de uso común que intente recopilar y estructurar estos campos de estudio de manera consistente y comprensible. Por lo tanto, obtener una visión general de toda la investigación en NLP es difícil. Si bien existen listas de temas de NLP en conferencias y libros de texto, tienden a variar considerablemente y a ser demasiado generales o demasiado especializados. Por lo tanto, desarrollamos una taxonomía que abarca una amplia gama de diferentes campos de estudio en NLP. Si bien esta taxonomía puede no incluir todos los conceptos posibles de NLP, abarca una amplia gama de los campos de estudio más populares, donde los campos de estudio faltantes pueden considerarse como subtemas de los campos de estudio incluidos. Al desarrollar la taxonomía, encontramos que ciertos campos de estudio de nivel inferior debían asignarse a múltiples campos de estudio de nivel superior en lugar de solo uno. Por lo tanto, algunos campos de estudio se enumeran varias veces en la taxonomía de NLP, pero se asignan a diferentes campos de estudio de nivel superior. La taxonomía final se desarrolló empíricamente en un proceso iterativo junto con expertos en el campo.
- Creando y Publicando tu Propio Paquete de Python para Principiantes...
- Inferencia para PROs
- Gemelos Digitales Biomédicos
La taxonomía sirve como un esquema de clasificación general en el que se pueden clasificar las publicaciones de NLP según al menos uno de los campos de estudio incluidos, incluso si no abordan directamente uno de los campos de estudio, sino solo subtemas de los mismos. Para analizar los desarrollos recientes en NLP, entrenamos un modelo débilmente supervisado para clasificar los documentos de la ACL Anthology según la taxonomía de NLP.
Puedes leer más detalles sobre el proceso de desarrollo del modelo de clasificación y la taxonomía de NLP en nuestro artículo.
Diferentes campos de estudio en NLP 📖
La siguiente sección proporciona explicaciones breves de los conceptos de los campos de estudio incluidos en la taxonomía de NLP mencionada anteriormente.
Multimodalidad
“La multimodalidad se refiere a la capacidad de un sistema o método para procesar entradas de diferentes tipos o modalidades” (Garg et al., 2022). Distinguimos entre sistemas que pueden procesar texto en lenguaje natural junto con datos visuales, voz y audio, lenguajes de programación o datos estructurados como tablas o gráficos.
Interfaces de Lenguaje Natural
“Las interfaces de lenguaje natural pueden procesar datos basados en consultas en lenguaje natural” (Voigt et al., 2021), generalmente implementadas como respuesta a preguntas o sistemas de diálogo y conversación.
Procesamiento Semántico de Texto
Este campo de estudio de alto nivel incluye todo tipo de conceptos que intentan derivar significado del lenguaje natural y permitir a las máquinas interpretar datos textuales de manera semántica. Uno de los campos de estudio más poderosos en este sentido son los “modelos de lenguaje que intentan aprender la función de probabilidad conjunta de secuencias de palabras” (Bengio et al., 2000). “Los avances recientes en el entrenamiento de modelos de lenguaje han permitido que estos modelos realicen con éxito diversas tareas de NLP” (Soni et al., 2022). En el aprendizaje de representaciones, “las representaciones de texto semánticas suelen aprenderse en forma de embeddings” (Fu et al., 2022), que “se pueden utilizar para comparar la similitud semántica de textos en entornos de búsqueda semántica” (Reimers y Gurevych, 2019). Además, “las representaciones de conocimiento, por ejemplo, en forma de grafos de conocimiento, se pueden incorporar para mejorar diversas tareas de NLP” (Schneider et al., 2022).
Análisis de Sentimientos
El “análisis de sentimientos” intenta identificar y extraer información subjetiva de los textos (Wankhade et al., 2022). Por lo general, los estudios se centran en extraer opiniones, emociones o polaridad de los textos. Más recientemente, surgió el “análisis de sentimientos basado en aspectos” como una forma de proporcionar información más detallada que el análisis de sentimientos general, ya que “pretende predecir las polaridades de sentimiento de los aspectos o entidades dados en el texto” (Xue and Li, 2018).
Procesamiento Sintáctico de Textos
Este campo de estudio de alto nivel tiene como objetivo “analizar la sintaxis gramatical y el vocabulario de los textos” (Bessmertny et al., 2016). Las tareas representativas en este contexto son el análisis sintáctico de las dependencias de las palabras en las oraciones, la etiquetación de las palabras con su respectiva parte de la oración, la segmentación de los textos en secciones coherentes o la corrección de textos erróneos en cuanto a gramática y ortografía.
Lingüística y NLP Cognitivo
“La lingüística y el NLP cognitivo se ocupan del lenguaje natural basándose en la suposición de que nuestras habilidades lingüísticas están firmemente arraigadas en nuestras habilidades cognitivas, que el significado es esencialmente una conceptualización y que la gramática está moldeada por el uso” (Dabrowska y Divjak, 2015). Existen muchas teorías lingüísticas diferentes que argumentan en general que “la adquisición del lenguaje está gobernada por reglas gramaticales universales que son comunes a todos los humanos con un desarrollo típico” (Wise y Sevcik, 2017). “La psicolingüística intenta modelar cómo un cerebro humano adquiere y produce lenguaje, lo procesa, lo comprende y proporciona retroalimentación” (Balamurugan, 2018). “La modelización cognitiva se ocupa de modelar y simular los procesos cognitivos humanos en diversas formas, especialmente en forma computacional o matemática” (Sun, 2020).
NLP Responsable y Confiable
“El NLP responsable y confiable se preocupa por implementar métodos que se centren en la equidad, la explicabilidad, la responsabilidad y los aspectos éticos en su núcleo” (Barredo Arrieta et al., 2020). El NLP “verde y sostenible” se centra principalmente en enfoques eficientes para el procesamiento de texto, mientras que el NLP de “recursos limitados” tiene como objetivo realizar tareas de NLP cuando los datos son escasos. Además, la “robustez en NLP” intenta desarrollar modelos que sean insensibles a los sesgos, resistentes a las perturbaciones de los datos y confiables para predicciones fuera de la distribución.
Razonamiento
El razonamiento permite a las máquinas sacar conclusiones lógicas y derivar nuevos conocimientos en función de la información disponible, utilizando técnicas como la deducción y la inducción. El “minado de argumentos” identifica y extrae automáticamente la estructura de inferencia y razonamiento expresada como argumentos presentados en textos en lenguaje natural (Lawrence and Reed, 2019). La “inferencia textual”, generalmente modelada como un problema de implicación, determina automáticamente si se puede inferir una hipótesis en lenguaje natural a partir de una premisa dada (MacCartney and Manning, 2007). El “razonamiento basado en sentido común” establece conexiones entre premisas e hipótesis utilizando conocimientos del mundo que no se proporcionan explícitamente en el texto (Ponti et al., 2020), mientras que el “razonamiento numérico” realiza operaciones aritméticas (Al-Negheimish et al., 2021). La “comprensión de lectura de máquina” tiene como objetivo enseñar a las máquinas a determinar las respuestas correctas a preguntas basadas en un texto dado (Zhang et al., 2021).
Multilingüismo
El multilingüismo aborda todo tipo de tareas de NLP que involucran más de un idioma natural y se estudia convencionalmente en la “traducción automática”. Además, el “intercambio de código” intercambia libremente múltiples idiomas dentro de una sola oración o entre oraciones (Diwan et al., 2021), mientras que las técnicas de “transferencia cruzada” utilizan datos y modelos disponibles para un idioma para resolver tareas de NLP en otro idioma.
Recuperación de Información
La recuperación de información se ocupa de encontrar textos que satisfagan una necesidad de información dentro de grandes colecciones (Manning et al., 2008). Por lo general, esto implica recuperar documentos o fragmentos.
Extracción de información y minería de texto
Este campo de estudio se centra en extraer conocimiento estructurado de texto no estructurado y “permite el análisis e identificación de patrones o correlaciones en los datos” (Hassani et al., 2020). La “clasificación de texto categoriza automáticamente textos en clases predefinidas” (Schopf et al., 2021), mientras que la “modelización de temas tiene como objetivo descubrir temas latentes en colecciones de documentos” (Grootendorst, 2022), a menudo utilizando técnicas de clustering de texto que organizan textos semánticamente similares en los mismos grupos. La “sumarización produce resúmenes de textos que incluyen los puntos clave de la entrada en menos espacio y evitan la repetición” (El-Kassas et al., 2021). Además, el campo de estudio de extracción de información y minería de texto también incluye el “reconocimiento de entidades nombradas, que se ocupa de la identificación y categorización de entidades nombradas” (Leitner et al., 2020), la “resolución de correferencia, que tiene como objetivo identificar todas las referencias a la misma entidad en el discurso” (Yin et al., 2021), la “extracción de términos, que tiene como objetivo extraer términos relevantes como palabras clave o frases clave” (Rigouts Terryn et al., 2020), extracción de relaciones que tiene como objetivo extraer relaciones entre entidades, y “extracción de información abierta que facilita el descubrimiento independiente del dominio de tuplas relacionales” (Yates et al., 2007).
Generación de texto
El objetivo de los enfoques de generación de texto es generar textos que sean comprensibles tanto para los seres humanos como indistinguibles del texto escrito por humanos. En consecuencia, generalmente se utiliza texto como entrada, como en “parafrasear que modifica la forma superficial del texto de entrada mientras se preservan los significados” (Niu et al., 2021), “generación de preguntas que tiene como objetivo generar una pregunta fluida y relevante dada un fragmento y una respuesta objetivo” (Song et al., 2018), o “generación de respuestas de diálogo que tiene como objetivo generar texto con apariencia natural relevante para la indicación” (Zhang et al., 2020). Sin embargo, en muchos casos, el texto se genera como resultado de la entrada de otras modalidades, como en el caso de “generación de texto a partir de datos estructurados como tablas o gráficos” (Kale y Rastogi, 2020), subtitulación de imágenes o videos, o “reconocimiento de voz que transcribe una forma de onda de voz en texto” (Baevski et al., 2022).
Características y desarrollos en NLP 📈

Teniendo en cuenta la literatura sobre NLP, comenzamos nuestro análisis con el número de estudios como indicador del interés de investigación. La distribución de publicaciones durante el período de observación de 50 años se muestra en la Figura anterior. Si bien las primeras publicaciones aparecieron en 1952, el número de publicaciones anuales creció lentamente hasta 2000. En consecuencia, entre 2000 y 2017, el número de publicaciones se cuadruplicó aproximadamente, mientras que en los cinco años siguientes se duplicó nuevamente. Por lo tanto, observamos un crecimiento casi exponencial en el número de estudios de NLP, lo que indica una atención creciente por parte de la comunidad de investigación.

Al examinar la figura anterior, se revelan los campos de estudio más populares en la literatura de NLP y su desarrollo reciente a lo largo del tiempo. Si bien la mayoría de los estudios en NLP están relacionados con la traducción automática o los modelos de lenguaje, los desarrollos de ambos campos de estudio son diferentes. La traducción automática es un campo ampliamente investigado que se ha establecido durante mucho tiempo y ha experimentado una tasa de crecimiento modesta en los últimos 20 años. Los modelos de lenguaje también se han investigado durante mucho tiempo. Sin embargo, el número de publicaciones sobre este tema solo ha experimentado un crecimiento significativo desde 2018. Se pueden observar diferencias similares al analizar otros campos de estudio populares. El aprendizaje de representación y la clasificación de texto, aunque generalmente investigados ampliamente, están parcialmente estancados en su crecimiento. En contraste, los sistemas de diálogo y agentes conversacionales, y en particular el NLP de recursos limitados, continúan exhibiendo altas tasas de crecimiento en el número de estudios. Basándonos en el desarrollo del número promedio de estudios sobre los campos de estudio restantes, observamos un crecimiento ligeramente positivo en general. Sin embargo, la mayoría de los campos de estudio son significativamente menos investigados que los campos de estudio más populares.
Tendencias Recientes en NLP 🚀

La figura anterior muestra la matriz de crecimiento y participación de los campos de estudio en NLP. La utilizamos para examinar las tendencias actuales de investigación y posibles direcciones futuras de investigación mediante el análisis de las tasas de crecimiento y el número total de artículos relacionados con los diversos campos de estudio en NLP entre 2018 y 2022. La sección superior derecha de la matriz consiste en campos de estudio que muestran una alta tasa de crecimiento y al mismo tiempo un gran número de artículos en general. Dada la creciente popularidad de los campos de estudio en esta sección, los categorizamos como estrellas en tendencia. La sección inferior derecha contiene campos de estudio que son muy populares pero muestran una baja tasa de crecimiento. Por lo general, estos son campos de estudio que son esenciales para NLP pero que ya son relativamente maduros. Por lo tanto, los categorizamos como campos de estudio fundamentales. La sección superior izquierda de la matriz contiene campos de estudio que muestran una alta tasa de crecimiento pero solo muy pocos artículos en general. Dado que el progreso de estos campos de estudio es bastante prometedor, pero el pequeño número de artículos en general dificulta predecir sus desarrollos futuros, los categorizamos como interrogantes en ascenso. Los campos de estudio en la parte inferior izquierda de la matriz se categorizan como campos de estudio de nicho debido a su bajo número total de artículos y sus bajas tasas de crecimiento.
La figura muestra que actualmente los modelos de lenguaje están recibiendo la mayor atención. Basándonos en los últimos desarrollos en esta área, es probable que esta tendencia continúe y se acelere en un futuro cercano. La clasificación de texto, la traducción automática y el aprendizaje de representación se encuentran entre los campos de estudio más populares, pero solo muestran un crecimiento marginal. A largo plazo, podrían ser reemplazados por campos en crecimiento más rápido como los campos de estudio más populares.
En general, los campos de estudio relacionados con el procesamiento sintáctico de texto muestran un crecimiento insignificante y una baja popularidad en general. Por el contrario, los campos de estudio relacionados con NLP responsable y confiable, como el NLP verde y sostenible, el NLP de recursos limitados y el NLP ético, tienden a mostrar una alta tasa de crecimiento y una alta popularidad en general. Esta tendencia también se puede observar en el caso de los datos estructurados en NLP, los datos visuales en NLP y el habla y el audio en NLP, todos ellos relacionados con la multimodalidad. Además, las interfaces de lenguaje natural que involucran sistemas de diálogo y agentes conversacionales y la respuesta a preguntas se están volviendo cada vez más importantes en la comunidad de investigación. Concluimos que además de los modelos de lenguaje, el NLP responsable y confiable, la multimodalidad y las interfaces de lenguaje natural serán característicos del panorama de investigación de NLP en el futuro cercano.
Se pueden observar desarrollos notables adicionales en el área del razonamiento, específicamente en lo que respecta al razonamiento de grafos de conocimiento y el razonamiento numérico, y en varios campos de estudio relacionados con la generación de texto. Aunque estos campos de estudio aún son relativamente pequeños, aparentemente atraen cada vez más interés de la comunidad de investigación y muestran una clara tendencia positiva hacia el crecimiento.
Conclusión 💡
Para resumir los desarrollos recientes y proporcionar una visión general del panorama de NLP, hemos definido una taxonomía de campos de estudio y analizado los desarrollos de investigación recientes.
Nuestros hallazgos muestran que se han estudiado un gran número de campos de estudio, incluyendo campos en tendencia como la multimodalidad, el procesamiento de lenguaje natural responsable y confiable, y las interfaces de lenguaje natural. Esperamos que este artículo proporcione una visión general útil del panorama actual del PNL y pueda servir como punto de partida para una exploración más profunda del campo.
Fuentes
Explorando el panorama de la investigación en procesamiento de lenguaje natural
Como enfoque eficiente para entender, generar y procesar textos en lenguaje natural, la investigación en lenguaje natural…
arxiv.org