Revolucionando la Sumarización de Texto Explorando los Transformadores GPT-2 y XLNet
Revolucionando la Sumarización de Texto con GPT-2 y XLNet
Introducción
No tenemos suficiente tiempo para leer todo y entenderlo. Ahí es donde entra en juego la resumización de texto. Nos ayuda a entender todo el texto haciéndolo más corto. Es como obtener la información esencial sin leer todos los detalles. La resumización de texto es realmente útil en muchas situaciones. Imagina si eres un estudiante y tienes un examen mañana pero aún no has comenzado a leer. Tienes que estudiar 3 capítulos para el examen y solo tienes hoy para estudiar. No te preocupes. Usa un resumidor de texto. Te ayudará a pasar el examen de mañana. Emocionante, ¿verdad? Este artículo explorará la resumización de texto utilizando los modelos transformadores GPT-2 y XLNet.
Objetivos de aprendizaje
En este artículo, aprenderemos:
- Sobre la resumización de texto y sus tipos
- Cómo surgió el modelo transformador y cómo funciona su arquitectura
- Sobre los resumidores transformadores como GPT-2 y XLNet
- Finalmente, la implementación utilizando sus diferentes variantes
Este artículo fue publicado como parte del Data Science Blogathon.
¿Qué es la resumización de texto?
¿Alguna vez has enfrentado una situación en la que necesitabas leer algunas páginas del libro pero no pudiste hacerlo por tu pereza? Aunque el libro fuera interesante, a veces simplemente no podemos pasar las páginas. Gracias a la resumización de texto. Usándola, podemos entender el resumen de todo el texto sin leer realmente todas las líneas y todas las páginas del libro.
- Investigadores de CMU presentan Zeno Un marco para la evaluación de...
- Los mejores bloqueadores de anuncios para la privacidad en línea (2...
- Conoce Concrete ML Un conjunto de herramientas de código abierto ba...
La resumización de texto consiste en convertir un texto largo en uno corto mientras se mantiene la información importante. Es como crear el resumen del texto. La resumización de texto es un campo fascinante en el procesamiento del lenguaje natural (NLP). Preserva las ideas principales e información esencial del texto original. En pocas palabras, el objetivo de la resumización de texto es capturar los puntos críticos del texto original y permitir a los lectores comprender rápidamente el contenido del texto sin leerlo realmente.

Tipos de resumización
Existen dos tipos principales de enfoques de resumización de texto. Son:
- Extractiva
- Abstractiva
Vamos a entenderlos en detalle.
Resumización extractiva
Implica seleccionar y combinar frases importantes del texto original para formar el resumen. Este tipo de resumización tiene como objetivo extraer las frases más relevantes e informativas. Estas frases deben representar la idea principal y el contexto del texto original. Las frases seleccionadas forman directamente el resumen sin modificaciones. Algunas técnicas estándar utilizadas en la resumización extractiva incluyen:
- Puntuación de frases: Este enfoque se basa en puntajes. El sistema selecciona frases para el resumen en función de la frecuencia de palabras, la posición de las frases y la importancia de las palabras clave. Se elegirán las frases que obtengan una puntuación alta para incluirlas en el resumen. De esta manera, todas las frases con puntuaciones altas forman el resumen del texto original completo.
- Basado en grafos: En los métodos basados en grafos, utilizamos grafos para representar las relaciones entre frases. Aquí, todas las frases son nodos y las aristas representan la similitud o relación entre las frases. Utilizando algunos algoritmos de grafos, identificamos las frases esenciales y todas las frases importantes formarán el resumen.

- Métodos estadísticos: Estas técnicas utilizan herramientas y algoritmos estadísticos para evaluar la importancia y relevancia de las frases individuales dentro del texto. Estos métodos buscan identificar las frases más relevantes e informativas asignando puntajes y pesos o utilizando técnicas de optimización. Todas las frases importantes, a su vez, forman el resumen del texto.
Resumización abstractiva
La resumización abstractiva implica generar un resumen que puede contener frases reformuladas o incluso nuevas que no son parte del texto original. Comprende el contenido del texto y genera un resumen para capturar las ideas principales. A diferencia de la resumización extractiva, donde se agregan textos originales sin modificaciones al resumen, la resumización abstractiva es como si un humano generara el resumen con sus propias palabras. Las técnicas de resumización abstractiva se basan en modelos avanzados de generación de lenguaje natural como redes neuronales o transformadores. Estos modelos avanzados pueden interpretar y generar un lenguaje similar al humano. La resumización abstractiva tiene la ventaja de producir resúmenes más similares a los humanos y puede manejar textos complejos de manera más efectiva. Algunas técnicas estándar utilizadas en la resumización abstractiva incluyen:
Modelos de Secuencia a Secuencia: Los modelos de secuencia a secuencia utilizan una arquitectura neural, toman el texto de origen como entrada y proporcionan un resumen como salida. Durante el entrenamiento, los modelos Seq2Seq se entrenan con pares de texto de origen y resúmenes correspondientes. De esta manera, el modelo aprende a mapear el texto de entrada y el resumen de salida mientras optimiza la función de pérdida. La función de pérdida denota la diferencia entre el resumen generado y el resumen objetivo original proporcionado. Al optimizar la función de pérdida, el modelo aprenderá mejor y generará los mejores resúmenes.
Mecanismos de Atención: Los mecanismos de atención son críticos en muchas tareas de procesamiento del lenguaje natural (PLN), incluida la resumización de texto. Aquí, los modelos se centran solo en las partes relevantes de la secuencia de entrada y generan el resumen como salida. Esto ayudará al modelo a enfocarse en la información importante y producir resúmenes más precisos y contextualmente adecuados.
Aprendizaje por Reforzamiento: Las técnicas de aprendizaje por reforzamiento ajustan el modelo de resumización mediante la provisión de recompensas o penalizaciones. Estas se basan en la calidad de los resúmenes generados. De esta manera, el modelo mejora y proporciona mejores resúmenes.
Modelos de Transformadores
Inicialmente, tenemos las redes neuronales recurrentes (RNN), que son redes neuronales alimentadas hacia adelante que trabajan con datos de secuencia. Pero estas RNN tienen algunas limitaciones, incluido el tiempo que lleva entrenar el modelo y, a veces, las secuencias largas llevan a la desaparición de los gradientes. Después de eso, entraron en escena las Memorias de Corto Plazo de Longitud (LSTM). Las LSTMs pueden procesar secuencias más largas en comparación con las RNN. Si las RNN son lentas para entrenar, las LSTMs son aún más lentas debido a su estructura compleja. Tanto las LSTMs como las RNN requieren que los datos de entrada se pasen de forma secuencial. Las GPU de hoy en día están diseñadas para cálculos paralelos y no son adecuadas para un flujo secuencial. Entonces, entraron en escena los transformadores.
La atención lo es todo
El artículo “La atención lo es todo” introdujo una nueva arquitectura llamada transformadores. La red de transformadores utiliza la arquitectura codificador-decodificador, que es similar a la arquitectura RNN, pero permite pasar secuencias de entrada en paralelo. Primero, la red de transformadores pasa una secuencia de entrada y la convierte en una incrustación de entrada para representar el significado de la secuencia. Luego, agrega una codificación posicional para capturar el contexto de cada palabra en la oración.
El bloque de atención calcula los vectores de atención para cada palabra. El problema aquí es que el vector de atención puede ponderar su relación consigo mismo mucho más alto. Pero necesitamos la interacción de palabras particulares con otras palabras. El sistema calcula ocho vectores de atención por palabra y obtiene el vector de atención final para cada palabra calculando un promedio ponderado. Este proceso implica el uso de múltiples vectores de atención, lo que da lugar al término “bloque de atención multi-head”. Luego, el sistema pasa estos vectores de atención a través de la red de alimentación directa. La salida final será algunos vectores codificados que representan cada palabra.

Red Decodificadora
Ahora veamos la red decodificadora. Primero, obtenemos las incrustaciones de la salida. Luego, hacemos una codificación posicional agregando un valor posicional para mantener el contexto. A continuación, el sistema lo pasa a través del primer bloque de atención multi-head, conocido como bloque de atención multi-head enmascarado. Durante el procesamiento de cada palabra, todas las palabras subsiguientes están enmascaradas y se forman vectores de atención utilizando solo las palabras precedentes. Después de esto, hay un segundo bloque de atención multi-head. Posteriormente, estos bloques se pasan a través de la capa de alimentación directa. Finalmente, el sistema alimenta la salida a través de las capas lineales y softmax para hacer predicciones para la siguiente palabra.
GPT-2 para Resumización de Texto
GPT-2 es un modelo de transformadores que fue preentrenado en un gran corpus de datos en inglés de manera auto-supervisada. Significa (Generative Pretrained Transformer). Este modelo se preentrena en textos sin etiquetas. GPT-2 es un modelo de lenguaje potente que se puede utilizar para tareas de resumización de texto. Es conocido por generar resúmenes contextualmente relevantes de textos de entrada. En realidad, fue diseñado inicialmente como un modelo generativo para adivinar las siguientes palabras en las oraciones.
Durante el entrenamiento, toma secuencias de entrada con una cierta longitud. Y las secuencias objetivo son similares a las secuencias de entrada, pero desplazadas por una palabra o token. De esta manera, el modelo aprende a predecir la siguiente palabra en función de las palabras anteriores. GPT-2 utiliza atención enmascarada para asegurarse de que solo se utilicen los tokens anteriores para la predicción. Todos los tokens futuros están enmascarados. A través de su proceso de entrenamiento, GPT-2 aprende cómo se ajustan las palabras y las oraciones en el idioma inglés. Desarrolla una comprensión de los patrones y estructuras. Este conocimiento se almacena dentro del modelo y se puede utilizar para generar nuevo texto que suene como si lo hubiera escrito un humano.
Variantes de GPT-2
Diferentes variantes de GPT-2 se basan en su tamaño de modelo y parámetros. Todos los modelos preentrenados de GPT-2 están disponibles en el Hugging Face Model Hub y podemos ajustarlos según los requisitos. Ahora veremos las variantes de GPT-2 en detalle.
1. GPT2-Small: Compacto y Rápido
Esta es la versión más pequeña de GPT-2. Tiene menos parámetros que otras versiones y es más rápida de usar. Esta versión es adecuada para tareas que requieren comprensión y generación básica de lenguaje. Puede que no sea buena con patrones de lenguaje complejos, pero aún así genera oraciones que tienen sentido. GPT2-Small es ideal para situaciones en las que no tenemos mucho tiempo o computadoras potentes. Tiene 124M de parámetros. El modelo se llama gpt2 en el sitio web oficial de Hugging Face.
GPT2-Small se puede ajustar en tareas o dominios específicos para mejorar el rendimiento en aplicaciones específicas. El ajuste fino implica entrenar el modelo en un conjunto de datos más pequeño y específico de la tarea para adaptarse a un contexto particular. Este proceso permite que GPT2-Small mejore su rendimiento en dominios específicos.
Debido a su tamaño más pequeño, puede tener dificultades para generar texto altamente detallado o rico en contexto. A veces puede generar textos no relacionados, especialmente cuando se enfrenta a sugerencias ambiguas. Pero la mayor parte del tiempo, generará textos significativos y relacionados.
2. GPT2-VoAGI: Encontrar un Equilibrio
GPT2-VoAGI es una versión de GPT-2 que se encuentra en el medio en cuanto a tamaño y rendimiento. Ofrece un equilibrio entre el tamaño del modelo y su rendimiento. Las variantes GPT2-Small y GPT2-Large en cuanto a capacidad y capacidades tienen un total de 355M de parámetros. Por lo tanto, capturan patrones más complejos en comparación con GPT2-Small. Estos parámetros son las representaciones aprendidas internamente que permiten al modelo comprender y generar texto.
En comparación con GPT2-Small, GPT2-VoAGI puede generar texto de mayor calidad con una mayor coherencia y fluidez. Es especialmente necesario al generar salidas de texto de alta calidad. Ofrece capacidades mejoradas, pero también requiere más recursos computacionales en comparación con GPT2-Small.
3. GPT2-Large: Habilidades Lingüísticas Avanzadas
Este modelo GLPT2-Large lleva las capacidades de generación y comprensión de texto a nuevos niveles. Tiene más parámetros que GPT2-VoAGI y mejora las capacidades de modelado del lenguaje. Por lo tanto, permite la generación de textos ricos en contexto. Tiene un total de 774M de parámetros. Estos parámetros permiten que el modelo capture muchos patrones lingüísticos complejos, incluyendo dependencias a largo plazo.
Puede generar respuestas más largas y elaboradas que se asemejan al contenido generado por humanos. Debido a su mayor tamaño, GPT-2 Large requiere más recursos computacionales para entrenar y utilizar de manera efectiva. Algunas de sus aplicaciones incluyen chatbots avanzados, generación de contenido creativo y asistentes virtuales.
4. GPT2-XL: Rendimiento Sobrealimentado
GPT-2 XL es una variante del modelo de lenguaje GPT-2 que incorpora la arquitectura XLNet. Esta es la variante más avanzada de GPT-2 en modelado del lenguaje. Tiene el mayor número de parámetros en comparación con todas las variantes de GPT-2. Tiene un total de 1.5B de parámetros. La arquitectura XLNet en GPT-2 XL permite una comprensión más profunda del contexto. Ha capturado con éxito relaciones complejas entre las palabras e incluso en secuencias largas. Además, tiene un rendimiento mejorado en todas las tareas.
Verá una amplia gama de aplicaciones donde es esencial un modelado avanzado del lenguaje. Al aprovechar el poder de GPT-2 XL, los investigadores y desarrolladores pueden desbloquear nuevas posibilidades en el procesamiento del lenguaje natural.
Implementación Usando GPT-2
Utilicemos diferentes variantes de GPT-2 para resumir texto.
Inicialmente, tomé una pequeña historia y la proporcioné. El objetivo es generar un resumen de toda la historia.
texto='''Érase una vez, en un pequeño pueblo llamado Willow Creek, ocurrió un crimen que dejó a
todos sorprendidos. La tienda de conveniencia local, un lugar de encuentro querido por la comunidad,
fue robada. La noticia se difundió rápidamente, causando miedo y preocupación entre los habitantes del pueblo.
La oficial Sarah Johnson fue asignada para investigar el crimen. Examinó cuidadosamente la tienda
en busca de pistas, con la esperanza de descubrir la verdad. Se encontraron huellas, huellas dactilares y una cerradura rota,
proporcionando pruebas valiosas. Las cámaras de seguridad de la tienda revelaron una figura enmascarada
entrando sigilosamente tarde en la noche. Los días se convirtieron en semanas, pero no hubo avances en el caso.
Los residentes del pueblo se volvieron ansiosos, preguntándose quién podría cometer tal crimen.
La oficial Johnson estaba decidida a resolver el caso, trabajando incansablemente día y noche. Una tarde,
mientras patrullaba el vecindario, Johnson vio a una persona sospechosa que actuaba de manera extraña
cerca de la tienda. Siguió discretamente a la persona, quien resultó ser un joven llamado Alex.
Alex confesó el crimen, explicando que enfrentaba dificultades financieras y tomó una
decisión imprudente por desesperación. La oficial Johnson mostró empatía hacia la situación de Alex,
entendiendo las presiones que enfrentaba. Se aseguró de que recibiera la ayuda que necesitaba en lugar de
un castigo severo. La noticia del arresto se extendió por todo el pueblo, y el incidente sirvió como un
recordatorio para la comunidad de apoyarse mutuamente en tiempos difíciles. La dedicación
y compasión de la oficial Johnson fueron aplaudidas, convirtiéndola en una figura respetada en Willow Creek.'''
Para la resumización de texto, utilizamos bert-extractive-summarizer. Luego importamos TransformerSummarizer del módulo summarizer.
pip install bert-extractive-summarizer
from summarizer import TransformerSummarizer
Primero, utilizaremos la variante GPT2-Small. Así que creamos una instancia de la clase TransformerSummarizer y la asignamos a la variable GPT2_model. Esta toma dos parámetros. El primero es el trasnformer_type, que especifica qué modelo de transformer estamos utilizando. Aquí estamos utilizando GPT2. El siguiente parámetro es transformer_model_key que especifica la variante. Aquí estamos utilizando gpt2. Y luego, imprimiremos el resumen generado con una longitud mínima de 50.
GPT2_model = TransformerSummarizer(transformer_type="GPT2",transformer_model_key="gpt2")
Resumen = ''.join(GPT2_model(text, min_length=50))
print(Resumen)
Había una vez, en un pequeño pueblo llamado Willow Creek, ocurrió un crimen que dejó a todos desconcertados. La oficial Sarah Johnson fue asignada para investigar el crimen. Los residentes del pueblo se volvieron ansiosos, preguntándose quién podría cometer tal crimen. La dedicación y compasión de la oficial Johnson fueron aplaudidas, convirtiéndola en una figura respetada en Willow Creek.
Ahora utilizaremos la variante GPT2-VoAGI.
GPT2_VoAGI_model = TransformerSummarizer(transformer_type="GPT2",
transformer_model_key="gpt2-VoAGI")
Resumen = ''.join(GPT2_VoAGI_model(text, min_length=50))
print(Resumen)
Había una vez, en un pequeño pueblo llamado Willow Creek, ocurrió un crimen que dejó a todos desconcertados. Los residentes del pueblo se volvieron ansiosos, preguntándose quién podría cometer tal crimen. La oficial Johnson estaba decidida a resolver el caso, trabajando incansablemente día y noche. Una tarde, mientras patrullaba el vecindario, Johnson vio a una persona sospechosa actuando de manera extraña cerca de la tienda.
Ahora utilizaremos la variante GPT2-Large.
GPT2_large_model = TransformerSummarizer(transformer_type="GPT2",transformer_model_key="gpt2-large")
Resumen = ''.join(GPT2_large_model(text, min_length=50))
print(Resumen)
Había una vez, en un pequeño pueblo llamado Willow Creek, ocurrió un crimen que dejó a todos desconcertados. Ella examinó cuidadosamente la tienda en busca de pistas, esperando descubrir la verdad. La oficial Johnson estaba decidida a resolver el caso, trabajando incansablemente día y noche. La noticia del arresto se difundió por todo el pueblo y el incidente sirvió como un recordatorio para la comunidad de apoyarse mutuamente en tiempos difíciles.
XLNet para la Resumización de Texto
XLNet es un modelo de lenguaje basado en transformer de última generación y significa “eXtreme Language understanding NETwork”. En realidad, fue diseñado para superar algunas limitaciones de los modelos anteriores como BERT (Representaciones del Encoder Bidireccional a partir de Transformers). Los modelos BERT suelen procesar la secuencia de entrada de manera bidireccional. Pero XLNet es diferente. Aquí permite que el modelo tome todas las posibles permutaciones de la secuencia de entrada. Esto se llama entrenamiento basado en permutaciones. Esto ayuda a XLNet a capturar más información contextual y mejorar el rendimiento en varias tareas de procesamiento de lenguaje natural.
XLNet también introduce el concepto de entrenamiento “autoregresivo”. Los modelos autoregresivos predicen el siguiente token en una secuencia basándose en los tokens anteriores. Esto les permite generar textos más coherentes y contextualmente relevantes. XLNet combina el entrenamiento autoregresivo y basado en permutaciones, mejorando el rendimiento en varias tareas.
Variantes de XLNet
XLNet tiene varias variantes disponibles y difieren en tamaño del modelo y en el tipo de tokenización utilizado (con mayúsculas o minúsculas). Podemos elegir la variante apropiada en función de los requisitos de la tarea y los recursos computacionales. Todos los modelos pre-entrenados de XLNet están disponibles en el Model Hub de Hugging Face y podemos ajustarlos según los requisitos. Ahora veremos algunas de las variantes populares de XLNet.
1. XLNet Base Cased: Preserva la Sensibilidad a las Mayúsculas
XLNet Base Cased es una variante específica del modelo XLNet que se entrena en texto con mayúsculas. Esto significa que conserva la capitalización original de las palabras en los datos de entrenamiento. Tiene un total de 110M de parámetros. La “Base” en XLNet Base Cased se refiere a su arquitectura base, que incluye varias capas, mecanismos de atención y otros componentes.
El aspecto “Cased” de XLNet Base Cased indica que el modelo preserva la información de mayúsculas y minúsculas de las palabras durante el entrenamiento y la inferencia. Esto significa que las letras mayúsculas y minúsculas se tratan de manera diferente. Además, el modelo puede distinguirlas. Esto es muy beneficioso cuando la capitalización lleva un significado semántico. Con su arquitectura equilibrada y entrenamiento que preserva las mayúsculas y minúsculas, este modelo tiene un buen equilibrio entre complejidad, recursos computacionales y rendimiento general.
2. XLNet Large Cased: Modelo a gran escala con sensibilidad a las mayúsculas
XLNet Large Cased es otra variante de XLNet con mayor capacidad y capacidades, lo que lo hace adecuado para tareas más complejas. Tiene más parámetros en comparación con XLNet-Base Cased. Tiene un total de 340 millones de parámetros. Con su mayor tamaño de modelo y arquitectura mejorada, puede capturar de manera efectiva patrones de lenguaje intrincados. La arquitectura de XLNet Large se basa en la base de XLNet Base Cased. Agrega algunas capas y componentes adicionales para mejorar sus capacidades.
XLNet Large Cased también requiere recursos computacionales altos y mayor capacidad y rendimiento. El entrenamiento y ajuste fino de XLNet Large Cased puede requerir recursos computacionales excepcionalmente altos, incluyendo potentes GPUs y configuraciones de hardware. XLNet Large Cased sobresale en varias tareas desafiantes de procesamiento del lenguaje natural, incluyendo traducción automática, clasificación de texto, análisis de sentimiento, respuestas a preguntas y resumen de documentos.
3. XLNet Base Multilingual Cased: Soporte multilingüe para tareas multilingües
XLNet Base Multilingual Cased es una variante del modelo XLNet, diseñada específicamente para admitir aplicaciones multilingües y tareas entre idiomas. Tiene capacidades y capacidad mejoradas para manejar múltiples idiomas. El modelo ha sido entrenado en un corpus grande de texto multilingüe. Esto ayuda al modelo a aprender más representaciones y capturar patrones lingüísticos. Con el entrenamiento multilingüe, el modelo puede transferir conocimiento y generalizar bien en diferentes idiomas. Esta capacidad también ayuda a lidiar con idiomas que no se utilizaron durante el proceso de entrenamiento.
XLNet Base Multilingual Cased conserva la información de mayúsculas y minúsculas de las palabras durante el entrenamiento y la inferencia, lo que lo hace sensible a las mayúsculas. Esto significa que puede distinguir entre letras mayúsculas y minúsculas. Esto tiene muchas aplicaciones y es particularmente útil para tareas entre idiomas. Estas incluyen traducción automática, clasificación de documentos entre idiomas, etc.
4. XLNet Base Cased IMDb
XLNet Base Cased IMDb es otra variante de XLNet entrenada y ajustada en el conjunto de datos IMDb para el análisis de sentimientos. Este conjunto de datos de IMDb es muy popular en el procesamiento del lenguaje natural (NLP) y contiene reseñas de películas etiquetadas con sentimientos positivos o negativos. Ajustaron este modelo durante 5 épocas utilizando un tamaño de lote de 32 y una tasa de aprendizaje de 2e-05. La longitud máxima de secuencia se estableció en 512. Dado que era una tarea de clasificación, utilizaron la función de pérdida de entropía cruzada para entrenar el modelo. Aunque este modelo está destinado principalmente a tareas de clasificación, aún puede generar resultados para tareas de resumen, pero los resultados pueden no ser óptimos.
Implementación utilizando XLNet
Utilizamos el mismo texto exacto que usamos antes para GPT-2. Todos los módulos importados permanecen iguales.
Primero, usaremos el modelo xlnet-base-cased
xlnet_base_cased_model = TransformerSummarizer(transformer_type="XLNet",
transformer_model_key="xlnet-base-cased")
Resumen = ''.join(xlnet_base_cased_model(text, min_length=50))
print(Resumen)
Érase una vez, en un pequeño pueblo llamado Willow Creek, ocurrió un crimen que dejó a todos sorprendidos. La oficial Sarah Johnson fue asignada para investigar el crimen. Examinó cuidadosamente la tienda en busca de pistas, con la esperanza de descubrir la verdad. Las cámaras de seguridad de la tienda revelaron una figura enmascarada entrando sigilosamente tarde en la noche.
Veamos los resultados utilizando el modelo xlnet-large-cased.
xlnet_large_cased_model = TransformerSummarizer(transformer_type="XLNet",
transformer_model_key="xlnet-large-cased")
Resumen = ''.join(xlnet_large_cased_model(text, min_length=50))
print(Resumen)
Érase una vez, en un pequeño pueblo llamado Willow Creek, ocurrió un crimen que dejó a todos sorprendidos. La tienda de conveniencia local, un lugar de encuentro querido por la comunidad, fue robada. Se aseguró de que recibiera la ayuda que necesitaba en lugar de un castigo severo. La noticia del arresto se extendió por todo el pueblo y el incidente sirvió como un recordatorio para que la comunidad se apoyara mutuamente en tiempos difíciles.
Finalmente, utilizaremos el modelo xlnet-base-cased-imdb.
xlnet_base_cased_imdb_model = TransformerSummarizer(transformer_type="XLNet",
transformer_model_key="textattack/xlnet-base-cased-imdb")
Resumen = ''.join(xlnet_base_cased_imdb_model(text, min_length=50))
print(Resumen)
Érase una vez, en un pequeño pueblo llamado Willow Creek, ocurrió un crimen que dejó a todos sorprendidos. Ella examinó cuidadosamente la tienda en busca de pistas, esperando descubrir la verdad. Las cámaras de seguridad de la tienda revelaron una figura enmascarada que se infiltraba tarde en la noche. La noticia del arresto se extendió por todo el pueblo y el incidente sirvió como recordatorio para que la comunidad se apoyara mutuamente en tiempos difíciles.
Conclusión
La resumización de textos simplifica el proceso de extraer información clave de textos extensos. Nos permite captar rápidamente los puntos principales. Con la aparición de nuevos modelos de transformadores como GPT-2 y XLNet, la resumización de textos ha alcanzado nuevas alturas. Este artículo nos enseñó sobre la resumización de textos y el modelo de transformador. La aparición de modelos de transformadores y su arquitectura y comprensión de cómo funciona exactamente. Luego exploramos diferentes variantes de GPT-2 y XLNet.
Aspectos destacados
- La resumización de textos es una técnica extraordinaria para extraer información importante de textos significativos.
- Utilizando resúmenes de texto, podemos ahorrar tiempo comprendiendo el texto sin leerlo y proporcionar resúmenes más precisos y coherentes.
- Tiene muchas aplicaciones, incluyendo Análisis de Redes Sociales, Resumización de Documentos, Agregación de Noticias y muchas más.
- GPT-2 y XLNet son modelos de transformadores poderosos y estos modelos han realizado contribuciones significativas al campo de la resumización de textos.
Preguntas frecuentes
Los medios mostrados en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.