OpenAI demandado por autores por usar sus libros para entrenar ChatGPT sin consentimiento

OpenAI demandado por autores por usar libros sin consentimiento para entrenar ChatGPT

Dos autores han presentado una demanda contra OpenAI, alegando que la compañía utilizó su trabajo para ayudar a entrenar a ChatGPT. El problema radica en que sus libros estaban protegidos por derechos de autor y los autores afirman que OpenAI no obtuvo su consentimiento para utilizar su trabajo en el entrenamiento del LLM.

Los autores, Paul Tremblay y Mona Award, afirman que ChatGPT puede generar “resúmenes muy precisos” de sus obras según la demanda. Además, afirman que estos resúmenes solo son posibles si ChatGPT fue entrenado con sus obras, lo cual consideran una violación de la ley de derechos de autor.

Los abogados tanto de OpenAI como de los autores que presentaron la demanda no respondieron a las preguntas de CNBC. El método de entrenamiento de los LLM, como ChatGPT, consiste en entrenarlos con grandes cantidades de datos de texto que generalmente se obtienen rastreando Internet. Esto, por supuesto, incluye sitios como Wikipedia y libros archivados.

Presentada en San Francisco, la demanda alega que “gran parte” del material en los datos de entrenamiento de OpenAI se basa en materiales protegidos por derechos de autor. Esto, por supuesto, incluye libros de los dos autores. Pero hay un problema importante con el caso y es tratar de demostrar exactamente cómo y dónde ChatGPT obtuvo los datos para el entrenamiento.

Por lo tanto, podría resultar difícil mostrar evidencia de daño sin esta información. Hasta ahora, la demanda hace referencia a ejemplos de los resúmenes que ChatGPT fue capaz de generar. También señala que el LLM comete errores en la información. Pero los dos autores afirman que la mayoría de los resúmenes son precisos, lo que, según su reclamo, significa que “ChatGPT retiene conocimiento de obras específicas en el conjunto de datos de entrenamiento”.

La demanda continúa diciendo: “En ningún momento ChatGPT reprodujo ninguna de las informaciones de gestión de derechos de autor que los demandantes incluyeron en sus obras publicadas”. Esta queja es muy similar a la de los artistas. El año pasado, hubo una presión por parte de artistas que afirmaban que herramientas de IA como Stable Diffusion, DALL-E 2 y otras habían sido entrenadas con sus obras de arte sin su consentimiento.

Tomará algún tiempo antes de que la demanda avance. Y cómo se decida en el tribunal podría cambiar la forma en que se entrenan los LLM en el futuro.

Nota del editor: ¿Estás listo para conocer las últimas novedades en IA generativa? Únete a nosotros en la cumbre de un día sobre IA generativa. Ve más allá del bombo y sumérgete en esta tecnología de vanguardia. Regístrate ahora gratis y desbloquea el poder de la IA generativa.