Web Scraping en el punto de mira ¿Están los modelos de lenguaje yendo demasiado lejos al entrenar con el contenido de todos?
Web Scraping y modelos de lenguaje ¿Demasiado lejos al entrenar con todo el contenido?
Mientras los modelos habilitados para el raspado obtienen información sobre dónde se encuentran, los datos obtenidos de fuentes limpias se volverán cada vez más importantes
Al finalizar la investigación para este artículo y justo cuando estaba a punto de comenzar a escribir, OpenAI tuvo un anuncio perfecto para acompañarlo: están desactivando temporalmente la función “Navegar con Bing” en ChatGPT. Si no lo has utilizado antes, esta es una función disponible para los usuarios de pago de la suscripción Plus. Plus te brinda acceso principalmente a dos cosas:
- Navegar con Bing: por defecto, ChatGPT no se conecta a datos de sitios web en tiempo real (por ejemplo, si le preguntas cuáles son las próximas películas de Marvel en 2023, no te dará una respuesta porque sus datos de entrenamiento se detienen en septiembre de 2021). Navegar con Bing va más allá de esta limitación al aprovechar la información en tiempo real de sitios web en toda la web, a los que OpenAI ahora tiene acceso gracias a su asociación con Microsoft Bing.
- Plugins: se trata de integraciones incorporadas en ChatGPT por empresas independientes para exponer sus capacidades a través de la interfaz de ChatGPT (por ejemplo, OpenTable te permite buscar reservas de restaurantes, Kayak te permite buscar vuelos desde ChatGPT si usas sus plugins); en este momento, son experimentales y son características “geniales”, pero los usuarios aún no las encuentran útiles.
Por lo tanto, Navegar con Bing es particularmente importante para ChatGPT porque su mayor competidor, Google Bard, tiene la capacidad de utilizar datos en tiempo real de Google Search. A continuación, se muestran ejemplos de respuestas de ChatGPT vs. Bard para las películas de Marvel en 2023:

Entonces, puedes ver por qué no es fácil para OpenAI desactivar Navegar con Bing (incluso temporalmente). Lo interesante es el razonamiento:
Hemos descubierto que la versión beta de Navegar en ChatGPT a veces muestra contenido de formas que no deseamos. Por ejemplo, si un usuario solicita específicamente el texto completo de una URL, puede cumplir inadvertidamente con esta solicitud. A partir del 3 de julio de 2023, hemos desactivado la función beta de Navegar con Bing por precaución mientras solucionamos este problema para hacer lo correcto con los propietarios del contenido. Estamos trabajando para volver a habilitar la versión beta lo antes posible y agradecemos tu comprensión.
Es interesante porque pone de relieve un problema más grande: empresas como OpenAI y Google Bard están utilizando una gran cantidad de datos para entrenar sus modelos, pero no está claro si tienen los permisos para utilizar estos datos y cómo están compensando a los creadores/plataformas de contenido por el uso de estos datos.
- Disrupting Productivity Paranoia ¿Sí al copiloto de Microsoft 365?
- Meet Animate-A-Story Un enfoque de narración con generación de vide...
- Un equipo de Australia gana una subvención para fusionar la IA con ...
En este artículo, analizaremos algunas cosas:
- ¿Qué son los Modelos de Lenguaje Grandes (LLMs) y por qué necesitan datos?
- ¿De dónde obtienen estos datos?
- ¿Por qué OpenAI, Google y otras empresas deberían preocuparse por cómo obtienen los datos?
- ¿Qué estrategias están adoptando las plataformas de contenido para responder a esto?
Al final del artículo, espero que obtengas una imagen más completa sobre este tema en constante evolución. Vamos a sumergirnos.
¿Qué son los Modelos de Lenguaje Grandes y por qué necesitan datos?
Comenzaremos con una explicación sencilla de cómo funcionan los modelos de aprendizaje automático: supongamos que deseas predecir cuánto se retrasará la llegada de tu próximo vuelo. Una versión muy básica podría ser una suposición humana (por ejemplo, si el clima es malo o si la aerolínea es mala, es probable que llegue tarde). Si deseas que sea más confiable, puedes tomar datos reales sobre los horarios de llegada de vuelos y compararlos con varios factores (por ejemplo, cómo se relacionan los horarios de llegada con la aerolínea, el aeropuerto de destino, la temperatura, la lluvia, etc.).
Ahora puedes llevar esto un paso más allá, utilizar los datos y crear una ecuación matemática para predecir esto. Por ejemplo: Minutos de retraso = A * puntuación de confiabilidad de la aerolínea + B * ocupación de un aeropuerto + C * cantidad de lluvia. ¿Cómo calculas A, B, C? Utilizando el gran volumen de datos de horarios de llegada anteriores que tienes y realizando algunos cálculos matemáticos.
Esta ecuación en términos matemáticos se llama “regresión” y es uno de los modelos de aprendizaje automático básicos más comúnmente utilizados. Ten en cuenta que el modelo básicamente es una fórmula matemática que comprende “características” (por ejemplo, puntuación de confiabilidad de la aerolínea, ocupación de un aeropuerto, cantidad de lluvia) y “pesos” (por ejemplo, A, B, C, que muestran cuánto peso agrega cada variable a la predicción).
El mismo concepto se puede extender a otros modelos más complejos, como las “redes neuronales” (que puedes haber escuchado en el contexto del aprendizaje profundo) o los “Modelos de Lenguaje Grandes” (a menudo abreviados como LLM y son los modelos subyacentes de todos los productos de IA basados en texto, como Google Search, ChatGPT y Google Bard).
No entraremos en demasiados detalles, pero cada uno de estos modelos, incluidos los LLM, son una combinación de “características” y “pesos”. Los modelos más eficientes tienen la mejor combinación de características y pesos, la forma de llegar a esa combinación es a través del entrenamiento con una GRAN cantidad de datos. Cuantos más datos tengas, más eficiente será el modelo. Por lo tanto, tener un volumen masivo de datos es fundamental y las empresas que entrenan estos modelos necesitan obtener estos datos.
¿De dónde están obteniendo estos datos?
De manera amplia, las fuentes de datos se pueden categorizar en:
- Datos de código abierto: Estas son fuentes de datos de alto volumen que generalmente están disponibles para fines comerciales, incluido el entrenamiento de LLM. Ejemplos de grandes fuentes de datos de código abierto incluyen Wikipedia, CommonCrawl (un repositorio abierto de datos de rastreo web), Project Gutenberg (eBooks gratuitos), BookCorpus (libros gratuitos escritos por autores no publicados), entre otros.
- Websites de contenido independiente: Estos incluyen un amplio conjunto de sitios web como publicaciones de noticias (piensa en Washington Post, the Guardian), plataformas específicas de creadores (piensa en Kickstarter, Patreon, VoAGI) y plataformas de contenido generado por usuarios (piensa en Reddit, Twitter). Por lo general, tienen políticas más restrictivas cuando se trata de extraer su contenido, especialmente si se utiliza con fines comerciales.
En un mundo ideal, las empresas de LLM enumerarían explícitamente todas las fuentes de datos que han utilizado / extraído y lo harían cumpliendo las políticas de quienes son propietarios del contenido. Sin embargo, varias de ellas no han sido transparentes al respecto, siendo el mayor infractor OpenAI (creador de ChatGPT). Google publicó un conjunto de datos que utilizó para el entrenamiento, llamado C-4. The Washington Post realizó un análisis interesante de estos datos, aquí están las 30 principales fuentes según su análisis:

La mayoría de estos datos se obtuvieron mediante extracción y las plataformas de contenido argumentan que estos datos se extrajeron en violación de sus términos de uso. Obviamente, no están contentos al respecto, especialmente dado la cantidad de beneficio que las empresas de LLM pueden obtener de los datos.
¿Por qué deberían preocuparse las empresas como OpenAI y Google acerca de cómo obtienen los datos?
De acuerdo, los proveedores de contenido se quejan. ¿Y qué? ¿Deberían preocuparse las empresas con productos de LLM por esto, además de querer ser “justos” por bondad de sus corazones?
La obtención de datos se está volviendo cada vez más crítica por dos razones principales.
Complicaciones legales: Las empresas que desarrollan LLMs están empezando a encontrarse envueltas en demandas de creadores y editores de contenido que creen que se utilizaron sus datos sin permiso. Las batallas legales pueden ser costosas y manchar la reputación de las empresas involucradas. Un ejemplo:
- Microsoft, GitHub y OpenAI están siendo demandados por supuestamente violar la ley de derechos de autor al reproducir código de código abierto utilizando IA
- Getty Images demanda al generador de arte AI Stable Diffusion
- Herramientas de arte AI Stable Diffusion y Midjourney son objeto de una demanda por derechos de autor
[nota: Stable Diffusion, Midjourney son generadores de imágenes de IA y no generadores de lenguaje, por lo tanto, no son “LLMs”, pero los mismos principios de lo que constituye un modelo y cómo se entrenan son los mismos]
Avanzar con clientes empresariales: Los clientes empresariales que utilizan LLMs o sus derivados necesitan contar con la legitimidad de los datos de entrenamiento. No quieren enfrentar desafíos legales debido a las prácticas de obtención de datos de los LLMs que utilizan, especialmente si no pueden transferir la responsabilidad de esas demandas a los proveedores de LLMs.
¿Realmente puedes construir modelos efectivos con todas estas restricciones de obtención de datos desordenados? Esa es una pregunta justa. Un ejemplo magistral de aplicación de estos principios es el reciente anuncio de Adobe Firefly (es un producto genial y en beta abierta, puedes probarlo) – el producto tiene un amplio conjunto de características que incluyen Texto a imagen, es decir, puedes escribir una línea de texto y generará una imagen para ti.

Lo que hace de Firefly un gran ejemplo es:
- Adobe solo utiliza imágenes que forman parte de Adobe Stock para las cuales ya tienen las licencias, además de imágenes de código abierto que no tienen restricciones de licencia. Además, también han anunciado que quieren construir una IA generativa de manera que permita a los creadores monetizar sus talentos y que anunciarán un modelo de compensación para los colaboradores de Adobe Stock una vez que Firefly salga de beta
- Adobe indemnizará a sus clientes por las salidas de Firefly (comenzando con la función de texto a imagen) – si no has escuchado el término “indemnizar” antes, en términos simples, Adobe está diciendo que tienen confianza en que han obtenido los datos que ingresan a sus modelos de manera limpia y, por lo tanto, están dispuestos a cubrir cualquier legislación que pueda surgir si alguien demanda a un cliente de Adobe por usar la salida de Firefly.
Una crítica al enfoque de obtención de datos limpios ha sido que perjudicará la calidad de la salida generada por los modelos. El lado opuesto de ese argumento es que los datos de alta calidad propiedad de los proveedores de contenido pueden proporcionar una entrada de mejor calidad para el entrenamiento del modelo (la basura entra, la basura sale es real cuando se trata del entrenamiento del modelo). En la imagen a continuación, a la izquierda se muestra una salida de Adobe Firefly, a la derecha de OpenAI’s Dall-E. Si comparas los dos, son bastante similares y la salida de Firefly es posiblemente más realista, lo que demuestra que se pueden construir modelos de lenguaje de alta calidad a partir de datos obtenidos de manera limpia.

¿Qué estrategias están adoptando las plataformas de contenido para responder a esto?
Varias empresas que tienen un gran volumen de contenido han expresado claramente que tienen la intención de cobrar a las empresas de IA por utilizar sus datos. Es importante tener en cuenta que la mayoría de ellas no han adoptado una postura contra la IA (es decir, no están diciendo que la IA va a tomar el control de nuestro negocio, por lo que estamos cerrando el acceso al contenido). Mayormente, están buscando establecer un marco comercial que defina cómo se producirá el acceso a estos datos y cómo se les compensará por ello.
StackOverflow, probablemente el foro más popular que los programadores utilizan cuando necesitan ayuda, planea comenzar a cobrar a los grandes desarrolladores de IA por el acceso a los 50 millones de preguntas y respuestas en su servicio. El CEO de StackOverflow, Prashanth Chandrasekar, expuso algunos argumentos razonables:
- Los ingresos adicionales serán vitales para asegurar que StackOverflow pueda seguir atrayendo usuarios y mantener información de alta calidad, lo que también ayudará a los futuros chatbots al generar nuevos conocimientos en la plataforma
- StackOverflow seguirá otorgando licencias de datos de forma gratuita a algunas personas y empresas, y solo buscará cobrar a las empresas que desarrollen LLMs con fines comerciales
- Argumenta que los desarrolladores de LLM están violando los términos de servicio de Stack Overflow, lo cual cree que está cubierto por una licencia Creative Commons que requiere que cualquier persona que posteriormente utilice los datos mencione de dónde provienen (lo cual los LLM no hacen)
Reddit hizo un anuncio similar (junto con sus controvertidos cambios en la fijación de precios de la API que cerraron varias aplicaciones de terceros). El CEO de Reddit, Steve Huffman, le dijo al Times “El corpus de datos de Reddit es realmente valioso, pero no necesitamos dar todo ese valor a algunas de las mayores empresas del mundo de forma gratuita”.
Twitter dejó de proporcionar acceso gratuito a sus APIs a principios de este año, y también anunció un cambio reciente que limita la cantidad de tweets que un usuario puede ver en un día, en un intento de evitar la extracción no autorizada de datos. Aunque la ejecución y el despliegue de las políticas dejan mucho que desear, la intención es clara de que no tienen la intención de proporcionar acceso gratuito a los datos con fines comerciales.
Otro grupo que ha salido con un frente unido y una crítica a los LLMs es el de las organizaciones de noticias. La Alianza de Noticias/Medios (NMA), que representa a los editores de medios impresos y digitales en los Estados Unidos, ha publicado lo que ellos llaman principios de IA. Si bien no hay muchos detalles tácticos aquí, el mensaje que están tratando de transmitir es claro:
Los desarrolladores y desplegadores de IA generativa (GAI) no deben utilizar la propiedad intelectual del editor sin permiso, y los editores deben tener el derecho de negociar una compensación justa por el uso de su propiedad intelectual por parte de estos desarrolladores.
Por lo tanto, es necesario negociar acuerdos escritos y formales.
La doctrina del uso legítimo no justifica el uso no autorizado de contenido, archivos y bases de datos del editor para y por los sistemas de GAI. Cualquier uso anterior o existente de dicho contenido sin permiso expreso es una violación de la ley de derechos de autor.
Nuevamente, sus argumentos no han sido para cerrar estos sistemas, sino para tener acuerdos comerciales para utilizar estos datos en cumplimiento de la ley de derechos de autor, y también argumentan que los marcos de compensación (por ejemplo, licencias) ya existen en el mercado actual y, por lo tanto, no ralentizarán la innovación.
Conclusión
Esto es solo el comienzo. Es probable que las plataformas con un alto volumen de contenido busquen una compensación por sus datos. Incluso las empresas que aún no han anunciado esta intención pero que ya tienen otros programas de licencia de datos (por ejemplo, LinkedIn, Foursquare, Reuters) es probable que los adapten para las empresas de IA/LLM.
Aunque este desarrollo puede parecer un obstáculo para la innovación, es un paso necesario para la sostenibilidad a largo plazo de las plataformas de contenido. Al asegurarse de que se les compense de manera justa, los creadores de contenido pueden seguir produciendo contenido de calidad, lo que a su vez contribuirá a hacer que los LLMs sean más efectivos.
¡Gracias por leer! Si te gustó este artículo, considera suscribirte al boletín Unpacked donde publico análisis en profundidad de temas actuales de tecnología y negocios. También puedes seguirme en Twitter @viggybala. Saludos, Viggy.