Historia Mundial a través de la Perspectiva de la Inteligencia Artificial
'Historia Mundial desde la Perspectiva de la IA'
¿Qué conocimiento histórico codifican los modelos de lenguaje?

Los avances en inteligencia artificial, especialmente en los grandes modelos de lenguaje, abren emocionantes posibilidades para la investigación histórica y la educación. Sin embargo, es importante examinar cómo estos modelos interpretan y recuerdan el pasado. ¿Reflejan algún sesgo inherente en su comprensión de la historia?
Soy consciente de la subjetividad de la historia (¡me especialicé en historia en mi licenciatura!). Los eventos que recordamos y las narrativas que creamos sobre el pasado están fuertemente influenciados por los historiadores que los escribieron y la sociedad en la que vivimos. Tomemos, por ejemplo, mi curso de historia mundial en la escuela secundaria, que dedicó más del 75% del currículo a la historia europea, sesgando mi comprensión de los eventos mundiales.
En este artículo, exploro cómo se recuerda e interpreta la historia humana a través de la inteligencia artificial. Examino las interpretaciones de los principales eventos históricos por parte de varios grandes modelos de lenguaje para descubrir:
- ¿Estos modelos muestran un sesgo occidental o estadounidense hacia los eventos?
- ¿Las interpretaciones históricas de los modelos difieren según el idioma utilizado para las sugerencias, como las sugerencias en coreano o francés que enfatizan más los eventos coreanos o franceses, respectivamente?
Con estas preguntas en mente, ¡sumergámonos!
Ejemplo: 1910
Como ejemplo, pregunté a tres modelos de lenguaje grandes diferentes (LLMs) cuáles fueron los principales eventos históricos en el año 1910. (Más detalles sobre cada LLM en la siguiente sección.)
- Introducción a la Cuantización de Pesos
- Presentando PandasAI Una biblioteca de análisis de datos impulsada ...
- HuggingFace Research presenta LEDITS la próxima evolución en la edi...

La pregunta que planteé fue deliberadamente cargada, sin una respuesta objetiva. La importancia del año 1910 varía mucho dependiendo de la perspectiva cultural de cada uno. En la historia coreana, marca el comienzo de la ocupación japonesa, un punto de inflexión que influyó significativamente en la trayectoria del país (ver Tratado Japón-Corea de 1910).
Sin embargo, la anexión japonesa de Corea no apareció en ninguna de las respuestas. Me pregunté si los mismos modelos interpretarían la pregunta de manera diferente si se les sugiriera en un idioma diferente, por ejemplo, en coreano.

Al sugerirlo en coreano, uno de los principales eventos mencionados por Claude es, de hecho, la Anexión japonesa de Corea. Sin embargo, me pareció interesante que dos de los cinco eventos importantes de GPT-4 fueran centrados en Estados Unidos (Boy Scouts y Acta Mann-Elkins), sin mencionar la Anexión de Corea. Además, Falcon, incluso cuando se le sugiere en coreano, responde en inglés.
Los experimentos
La configuración del experimento fue la siguiente:
- 3 modelos: GPT-4 de OpenAI, Claude de Anthropic y Falcon-40B-Instruct de TII
- 6 idiomas: inglés, francés, español, coreano, japonés, chino
- 3 años (610, 1848, 1910)
- 5 eventos históricos por ejecución
- 10 ejecuciones
- = 2700 eventos totales
Idiomas y Prompts
Los idiomas que elegí fueron en su mayoría arbitrarios, basados en los idiomas con los que estaba más familiarizado (inglés, coreano) y aquellos que hablaban algunos de mis amigos más cercanos y que podían traducir para mí (chino, japonés, francés, español). Las traducciones se pueden encontrar al final del artículo. Les pedí que me tradujeran lo siguiente al inglés:
"Los cinco eventos históricos más importantes del año {}, clasificados por importancia. Sé breve y solo da el nombre del evento."
Modelos
- GPT-4 de OpenAI es la generación más nueva de ChatGPT, que es uno de los chatbots de IA más populares (con más de 100 millones de usuarios activos mensuales)
- Claude de Anthropic es un competidor de ChatGPT entrenado para ser inofensivo y útil utilizando un método llamado IA Constitucional
- Falcon-40B-Instruct de Technical Innovation Institute es el mejor modelo de lenguaje de código abierto, según la clasificación de Open LLM de HuggingFace
Normalizando los eventos
Incluso si un modelo generaba el mismo evento en cada ejecución, había mucha diversidad en la forma en que describía el mismo evento.
Por ejemplo, los siguientes se refieren a un mismo evento:
- “Anexión de Japón a Corea”
- “Anexión de Japón a Corea”
- “Japón anexa Corea”
- “Tratado de Anexión Japón-Corea”
Necesitaba una forma de referirme a un solo evento (la anexión de Corea por Japón) utilizando el mismo vocabulario (un proceso conocido como normalización). ¡Sin mencionar que el mismo evento podría describirse en seis idiomas diferentes!
Utilicé una combinación de reglas manuales, Google Translate y GPT-4 para ayudar con la normalización. Inicialmente había esperado usar un LLM para normalizar los eventos de otro LLM (por ejemplo, usar GPT-4 para normalizar los eventos de Claude; Claude para normalizar los eventos de Falcon, etc.) para reducir el sesgo. Sin embargo, Claude y Falcon no eran muy buenos siguiendo instrucciones para normalizar y GPT-4 se destacó como el mejor modelo para el trabajo.
Reconozco los sesgos que surgen al usar un modelo para normalizar sus propios eventos. Sin embargo, como utilicé sesiones diferentes de GPT-4 para generar eventos históricos y para normalizar los eventos, no hubo superposición de contexto. En el futuro, la normalización se puede realizar utilizando un método más objetivo.
Resultados
En general, me sorprendió la comprensión de la historia por parte de los diferentes modelos.
- GPT-4 era más propenso a generar los mismos eventos independientemente del idioma con el que se le solicitara
- Anthropic era más propenso a generar eventos históricos relevantes para el idioma con el que se le solicitara
- Falcon (desafortunadamente) era más propenso a inventar eventos falsos
- Los tres modelos mostraron un sesgo hacia eventos occidentales o estadounidenses, pero no de la manera que esperaba. Cuando se le solicitaba en un idioma que no era inglés, el modelo generaba un evento histórico estadounidense o británico (incluso cuando el modelo no generaba ese evento al solicitarlo en inglés). Esto ocurrió en los tres modelos.
1. Comparación de idiomas para cada modelo (1910)
Cada combinación de modelo e idioma generó “los 5 principales eventos históricos” 10 veces (= 50 eventos en total). Tomé el subconjunto de eventos que al menos un idioma generó 5 veces o más. Esto se debe a que los modelos a veces predecían un evento aislado que nunca volvían a predecir. Las celdas con valores 10 significan que el modelo predijo ese evento cada vez que se le solicitó.
En esta sección, muestro los principales eventos predichos por cada uno de los 3 modelos, desglosados por idiomas, para el año 1910. Gráficos similares para los años 610 y 1848 se pueden encontrar en la página de GitHub, donde compartí todo el código y los análisis.
GPT-4 (OpenAI)
- Revolución Mexicana: en todos los idiomas, la Revolución Mexicana fue consistentemente un evento mundial importante, incluso en idiomas que no esperaba, como el coreano o el japonés
- Anexión de Corea por Japón: No se mencionó cuando se preguntó en español o francés. Cuando se le preguntó en japonés, era más probable que mencionara este evento (9 veces) que cuando se le preguntó en coreano (6 veces), lo cual me pareció extraño e interesante
- Fundación de los Boy Scouts de América: GPT-4 predijo este evento cuando se le preguntó en japonés (7 veces), casi el doble de veces que cuando se le preguntó en inglés (4 veces). Parece que se codificaron pequeños detalles aleatorios de información estadounidense en la comprensión japonesa de 1910
- Establecimiento del Parque Nacional Glacier: Aún más extraño, GPT-4 predijo este evento cuando se le preguntó en español y francés, pero no en inglés

Claude (Anthropic)
En general: A diferencia de GPT-4, no hubo un solo evento que fuera considerado “evento histórico importante” en todos los idiomas.
- Revolución Mexicana: aunque se generó con frecuencia cuando se preguntó en francés, español y (de manera inexplicable) coreano, no fue tan importante en inglés como lo fue con GPT-4
- Anexión de Corea por Japón: más importante para el coreano y el japonés que para otros idiomas (los dos países involucrados en el evento)
- Muerte de Eduardo VII: más importante para el inglés y el francés (y no para otros idiomas). Eduardo VII fue el Rey del Reino Unido y aparentemente tenía buenas relaciones con Francia.
- Exploración de la Antártida: Este evento fue en realidad la expedición antártica británica, en la cual un británico llegó a la Antártida por primera vez. Sin embargo, por alguna razón desconocida, Claude genera este evento solo cuando se le pregunta en chino o japonés (pero no en inglés).

Falcon 40B Instruct (Open Source; TII)
En general, Falcon no fue tan consistente ni preciso como los otros dos modelos. La razón por la que se muestran menos eventos en el gráfico es porque ¡no hubo otros eventos que Falcon predijo 5 veces o más! Lo que significa que Falcon fue un poco inconsistente en sus predicciones.
- El Titanic se hunde: esto sucedió en realidad en 1912
- Inicio de la Primera Guerra Mundial: esto sucedió en realidad en 1914
- Falcon es históricamente inexacto en sus predicciones. ¿Pero al menos acertó en la década?

2. Comparación de las correlaciones de los modelos para cada idioma (1910)
A continuación, cuantifiqué qué tan similares eran las predicciones generales de un modelo en comparación con los otros. Utilicé un método matemático (similitud del coseno) para determinar qué tan similares eran dos distribuciones de predicción. Los valores más cercanos a 1 indicaban que las predicciones eran idénticas; los valores más cercanos a 0 indicaban que dos conjuntos de predicciones no tenían nada en común.
Nuevamente, muestro este ejemplo para el año 1910. Los otros años se pueden encontrar en la página de GitHub.
En la mayoría de los idiomas, GPT-4 y Claude tuvieron un valor de correlación más alto, lo que significa que, a pesar de todos los idiomas, los dos modelos predijeron un alto porcentaje de eventos similares.
Por otro lado, Falcon tiende a estar menos correlacionado, lo que significa que su comprensión de la historia se aparta de la de GPT-4 y Claude.

3. Comparación de modelos para cada año
A continuación, comparé los diferentes modelos de lenguaje para cada año. Combiné todos los eventos predichos para todos los idiomas y consideré los eventos globales predichos por un modelo, independientemente del idioma. Tomé el subconjunto de eventos para los cuales al menos un modelo generó 10 veces o más.
Similar a las tendencias encontradas en la sección anterior, GPT-4 y Claude tendieron a predecir eventos históricos importantes similares para cada año: Las Primeras Revelaciones de Mahoma y la Ascensión del Emperador Heraclio al Trono Bizantino en 610; las Revoluciones Europeas de 1848; y la Revolución Mexicana en 1910.
Hubo ciertos eventos que un modelo predijo de manera desproporcionada en comparación con los demás. Por ejemplo, para el año 1848, GPT-4 predijo “Publicación del Manifiesto Comunista” 42 veces, en comparación con las 15 veces de Claude. Para el año 1910, Claude predijo “Muerte de Eduardo VII” 26 veces, en comparación con 1 vez de GPT-4.
Falcon tendía a tener la menor comprensión de los eventos históricos. Falcon no predijo eventos importantes para los tres años. Para el año 610, Falcon no predijo el evento de la Ascensión del Emperador Heraclio. Para el año 1910, no predijo eventos como la Anexión de Corea por Japón, la Formación de la Unión de Sudáfrica y la Revolución Portuguesa (todos eventos globales no americanos), en cambio, predijo eventos centrados en Estados Unidos como el Incendio de la fábrica Triangle Shirtwaist (que ocurrió en 1911, no en 1910). Curiosamente, Falcon fue capaz de predecir la mayoría de los eventos de 1848 de manera similar a los otros dos modelos, ¿tal vez porque los eventos de 1848 eran más centrados en Occidente (por ejemplo, revoluciones europeas)?
Eventos de hace más tiempo (por ejemplo, el año 610) significaban que la historia es un poco más difusa. La Dinastía Tang se estableció en 618, no en 610 y la Construcción del Gran Canal bajo el Emperador Yang de Sui se completó en realidad en un período de tiempo más largo (604 a 609).
610

1848

1910

Discusión
Entonces, ¿por qué es importante todo esto?
A medida que las compañías educativas incorporan cada vez más Modelos de Lenguaje Grande (LLMs) en sus productos, como Duolingo aprovechando GPT-4 para el aprendizaje de idiomas, Khan Academy introduciendo el asistente de enseñanza de IA ‘Khanmigo’ y la Universidad de Harvard planeando integrar la IA en su plan de estudios de informática, comprender los sesgos subyacentes de estos modelos se vuelve crucial. Si un estudiante utiliza un LLM para aprender historia, ¿qué sesgos podrían absorber inadvertidamente?
En este artículo, mostré que algunos modelos de lenguaje populares, como GPT-4, predicen consistentemente “eventos importantes” independientemente del lenguaje de la consulta. Otros modelos, como Claude, mostraron predicciones más específicas del lenguaje. Los modelos de código cerrado generalmente exhibieron una mayor consistencia y precisión que la principal alternativa de código abierto. En todos los modelos probados en este artículo, hubo una tendencia a predecir eventos occidentales o estadounidenses (incluso eventos arcanos) a expensas de otros eventos globales.
El trabajo futuro podría incluir:
- Ampliar el análisis para abarcar más idiomas y años
- Realizar un análisis más profundo sobre la precisión histórica de las salidas del modelo
- Realizar un análisis más profundo sobre la clasificación de los principales eventos históricos
- Desarrollar un método más objetivo para la normalización de eventos
El objetivo de este artículo no fue desacreditar a los LLMs ni sugerir su eliminación de entornos educativos. Más bien, me gustaría instar a un enfoque crítico y cauteloso, uno que reconozca y mitigue sus sesgos. Los LLMs, cuando se utilizan de manera responsable, pueden ser recursos valiosos tanto para estudiantes como para profesores en diversas disciplinas. Sin embargo, también debemos comprender los sesgos que pueden llevar, como el centrismo occidental, y adaptar su uso en consecuencia.
Reemplazar a tu profesor de historia o tus libros de texto con un LLM conlleva el riesgo de obtener una interpretación distorsionada y unilateral de la historia. En última instancia, debemos utilizar estas herramientas de manera reflexiva, conscientes de sus sesgos inherentes, asegurando que complementen en lugar de dictar nuestra comprensión del mundo.
¡Gracias por leer!
Bloopers
Probé algunos modelos de código abierto diferentes. ¡A continuación se muestran algunos bloopers (todos en coreano) de las extrañas salidas que encontré que generaban los modelos!
Falcon 40B Instruct
Pythia 12B
El modelo parece haber quedado atrapado en un bucle compuesto por canguro, correo aéreo y variaciones de торговать (que significa comerciar en ruso).
Traducciones
Inglés: 'Top five historical events in the year {}, ranked by importance. Be brief and only give the name of the event.'Coreano: '{}년에 일어난 중대한 역사적인 사건 다섯가지는 무엇인가? 간단히 그 사건의 명칭들을 열거하시오.'Chino: '按重要性顺序列出 {} 年的前五个历史事件。 简短一点,只给出事件的名称。'Francés: 'Les cinque événements historiques les plus importants de {}, en ordre d’importance. Seulement donnez leurs noms.'Japonés: '{}年にあったトップの出来事を五つイベント名のみで簡潔に記載してください。最も重要な出来事から。'Español: 'Una lista de los cinco eventos históricos que ocurrieron en el año {}. Solo da el nombre del evento.'