¿Ha afectado el lanzamiento de ChatGPT a la producción de datos abiertos? Investigadores examinan cómo la creciente popularidad de los LLM está llevando a una disminución sustancial del contenido en StackOverflow.
Investigadores examinan cómo la popularidad de los LLM afecta la producción de datos abiertos, especialmente en StackOverflow.
Los Modelos de Lenguaje Grandes (LLMs) se están volviendo populares con cada nueva actualización y lanzamiento. LLMs como BERT, GPT y PaLM han demostrado capacidades tremendas en el campo del Procesamiento del Lenguaje Natural y la Comprensión del Lenguaje Natural. El conocido chatbot desarrollado por OpenAI llamado ChatGPT se basa en la arquitectura de transformadores de GPT 3.5 y GPT 4 y es utilizado por más de un millón de usuarios. Debido a sus propiedades de imitación humana, ha captado la atención de todos, desde investigadores y desarrolladores hasta estudiantes. Genera contenido único de manera eficiente, responde preguntas como lo haría un humano, resume párrafos de texto largos, completa ejemplos de código, traduce idiomas, y mucho más.
ChatGPT ha demostrado ser sorprendentemente bueno al proporcionar información a los usuarios sobre una variedad de temas, convirtiéndolos en posibles alternativas a las búsquedas web convencionales y a pedir ayuda a otros usuarios en línea. Pero también surge una limitación, que es que la cantidad de datos generados por humanos y los recursos de conocimiento públicamente accesibles pueden reducirse drásticamente si los usuarios siguen interactuando de forma privada con modelos de lenguaje masivos. Esta reducción en los datos abiertos puede dificultar la obtención de datos de entrenamiento para futuros modelos, ya que puede haber menos información disponible de forma gratuita.
Para investigarlo más a fondo, un equipo de investigadores ha examinado la actividad en Stack Overflow para determinar cómo el lanzamiento de ChatGPT afectó la producción de datos abiertos. Stack Overflow, un conocido sitio de preguntas y respuestas para programadores, se ha utilizado como un gran caso de estudio para examinar el comportamiento y las contribuciones de los usuarios cuando hay numerosos modelos de lenguaje presentes. El equipo ha investigado cómo, a medida que los LLMs como ChatGPT están ganando una popularidad masiva, están llevando a una disminución sustancial del contenido en sitios como Stack Overflow.
Después de la evaluación, el equipo llegó a algunas conclusiones interesantes. Stack Overflow experimentó una gran disminución en su actividad en comparación con sus competidores chinos y rusos, donde el acceso a ChatGPT está restringido, y con foros similares de matemáticas, donde ChatGPT es menos efectivo debido a la falta de datos de entrenamiento útiles. El equipo predijo una disminución del 16% en las publicaciones semanales en Stack Overflow después del lanzamiento de ChatGPT de OpenAI. Además, se observó que el impacto de ChatGPT en la reducción de la actividad en Stack Overflow ha aumentado con el tiempo, lo que sugiere que a medida que los usuarios se acostumbraban más a las características del modelo, comenzaron a depender cada vez más de él para obtener información, limitando aún más las contribuciones al sitio.
- Integra las tarjetas de modelo de Amazon SageMaker con el registro ...
- Navegando por los mares de datos Startup traza la monitorización au...
- La ‘Panadería Digital’ imprime en 3D dulces y chocolate...
El equipo ha llegado a tres conclusiones clave, que son las siguientes.
- Reducción de la actividad de publicación: Después del lanzamiento de ChatGPT, Stack Overflow experimentó una disminución en el número de publicaciones, es decir, en preguntas y respuestas. Se utilizó una metodología de diferencias en diferencias para calcular la reducción de la actividad y compararla con otros cuatro plataformas de preguntas y respuestas. La actividad de publicación en Stack Overflow originalmente disminuyó aproximadamente un 16% dentro de los seis meses posteriores al debut de ChatGPT antes de aumentar a aproximadamente un 25%.
- No hay cambios en los votos de las publicaciones: El número de votos, tanto positivos como negativos, que han recibido las publicaciones en Stack Overflow desde el lanzamiento de ChatGPT no ha cambiado significativamente, a pesar de la disminución en la actividad de publicación, lo que muestra que ChatGPT está reemplazando no solo publicaciones de baja calidad, sino también artículos de alta calidad.
- Efecto en diversos lenguajes de programación: ChatGPT tuvo un efecto diverso en los diversos lenguajes de programación discutidos en Stack Overflow. En comparación con el promedio global del sitio, la actividad de publicación disminuyó más notablemente para algunos lenguajes, como Python y JavaScript. Las disminuciones relativas en la actividad de publicación también se vieron influenciadas por la prevalencia de los lenguajes de programación en GitHub.
Los autores concluyeron explicando cómo el uso generalizado de los LLMs y el posterior alejamiento de sitios web como Stack Overflow pueden limitar en última instancia la cantidad de datos abiertos que los usuarios y los futuros modelos pueden aprender, a pesar de las posibles ganancias de eficiencia en la resolución de algunos problemas de programación. Esto tiene consecuencias para la accesibilidad y el intercambio de conocimientos en Internet, así como para la viabilidad a largo plazo del ecosistema de IA.