GPT-5 ahora está registrado como marca comercial por OpenAI ¿Qué dice eso sobre el futuro de ChatGPT?

GPT-5 registrado como marca comercial por OpenAI ¿Qué significa para el futuro de ChatGPT?

¿Qué nos está insinuando? .. ¿ChatGPT-5?

Imagen: Creador de imágenes de Bing + Canva

I. La marca comercial de GPT-5

En una entrevista de la BBC en 2014, Stephen Hawking dijo las siguientes palabras:

El desarrollo de una inteligencia artificial completa podría significar el fin de la raza humana.

El estado de la IA en 2014 era diferente al de hoy. La IA estaba despertando interés en el mundo corporativo. Ese año, Google compró DeepMind, una startup de aprendizaje automático, por más de $600 millones. Un año después, DeepMind creó AlphaGo, que llegó a vencer a Fan Hui, el campeón europeo de Go. Por otro lado, Facebook estaba creando un sistema que podía predecir si dos imágenes mostraban a la misma persona.

El desarrollo del Aprendizaje Profundo estaba en su mejor momento. Una pequeña startup llamada OpenAI fue formada luego de un año, en diciembre de 2015. Y ahora, 10 años después, después de lo que ahora parece un siglo de avances en IA, OpenAI presentó una solicitud de marca registrada para “GPT-5” el 14 de julio ante la Oficina de Patentes y Marcas de los Estados Unidos (USPTO).

Este movimiento de OpenAI atrajo muchas especulaciones. Muchos dicen que insinúa el potencial desarrollo de una nueva versión de su modelo de lenguaje después de GPT-4.

Esta noticia apareció en Twitter/X en una publicación del abogado de marcas comerciales Josh Gerben el 31 de julio.

El registro de la marca GPT-5 fue una sorpresa para muchos de nosotros.

¿A qué está insinuando?

II. Intérprete de código de OpenAI: un lanzamiento sigiloso, conectando GPT-4.5 y GPT-5?

No hace mucho tiempo, OpenAI lanzó la nueva función de ChatGPT: el intérprete de código. Esta fue, hasta ahora, la adición de características más impresionante a ChatGPT-4. Usando el intérprete de código, ahora podías ejecutar programas de Python en ChatGPT, cargar e incluso descargar archivos. Además, incluso puede trabajar con imágenes hasta cierto punto.

En un podcast en Latent Space (11 de julio), Simon Willison, Alex Volkov, Aravind Srinivas y Alex Graveley argumentan que Code Interpreter es en realidad GPT-4.5. Por supuesto, OpenAI no ha anunciado si esto realmente era GPT 4.5 o no. Sin embargo, esto no es algo nuevo. Ya habíamos visto un comportamiento similar cuando OpenAI lanzó silenciosamente Gpt 3.5.

Esta vez, sin embargo, OpenAI podría no haber anunciado el Gpt 4.5, siguiendo la declaración de Sam Altman (CEO de OpenAI) de adherirse a la carta de pausa de seis meses.

Cuando se habló de la carta abierta viral que pedía una pausa de seis meses en el desarrollo de la IA, Sam dijo lo siguiente:

“Hay partes del impulso con las que realmente estoy de acuerdo… Pasamos más de seis meses después de terminar el entrenamiento de GPT-4 antes de lanzarlo, por lo que tomar el tiempo para estudiar realmente la seguridad del modelo, tratar de entender qué está sucediendo y mitigar tanto como puedas es importante.”

En la misma conversación, el comentario de Sam sobre el desarrollo de GPT-5 fue el siguiente:

“[OpenAI] no está, no lo estará durante algún tiempo [desarrollando nuevas versiones de gpt], por lo que en ese sentido [la pausa de seis meses] fue algo tonto.”

Esta charla tuvo lugar en el MIT en marzo de este año. Puedes ver el breve clip aquí.

Basándonos en esto, muchos de nosotros nos convencimos de que lanzar GPT-5 en cualquier momento pronto sería poco probable. Este claro espacio entre el final del entrenamiento y el lanzamiento de GPT-4 significaba que el lanzamiento de GPT-5 aún no había comenzado.

Al menos, eso era lo que se esperaba.

Sin embargo, el registro de la marca GPT-5 por parte de OpenAI es algo nuevo. ¿Será posible que OpenAI ya esté desarrollando GPT-5? ¿Es una nueva táctica de marketing para generar expectativas sobre la AGI, una IA hipotética que puede realizar cualquier tarea sin ayuda alguna?

Entrecerrando los ojos, podemos encontrar las pistas en la propia solicitud de marca registrada.

III. Marcando el Mañana: La Odisea de GPT-5 en la Frontera Multimodal

Yendo un poco más en detalle, la solicitud de marca registrada de GPT-5 se refiere a “programas de computadora descargables y software de computadora relacionados con modelos de lenguaje.” Esto significa que la marca registrada cubre el “programa” y “software de computadora” relacionados con los LLM.

GPT-5 podría ser en realidad un LLM que las futuras iteraciones de GPT-4 podrían utilizar.

Trademark Electronic Search System (TESS) (uspto.gov) Highlights done by me.

Además, la clave principal de la pista proviene de los que he resaltado anteriormente. La solicitud de marca registrada incluye software para realizar procesamiento de voz y texto, procesamiento de lenguaje y aprendizaje automático. También incluye software para reconocimiento de voz y habla, conversión de archivos de audio a texto, y más.

¿Eso te suena familiar? ¿Un chatbot que puede, además de generar respuestas, trabajar con imágenes, voces, habla, etc.?

¡Ja! La multimodalidad de GPT.

La multimodalidad se refiere a la capacidad de trabajar con más de un tipo de entrada, como imágenes, textos, audio, y así sucesivamente. La gente anticipó el lanzamiento de GPT-4 con carteles de “el futuro está aquí” por todo internet. Esta anticipación se elevó cuando supimos que GPT-4 podría ‘presumiblemente’ trabajar con imágenes en un futuro próximo. Durante la demostración en vivo de GPT-4 hace 4 meses, vimos muchas capacidades impresionantes del modelo. Esto incluía la capacidad de interpretar memes e imágenes, describir los diversos elementos de las imágenes, y más.

El presidente y cofundador de OpenAI, Greg Brockman, demostró cómo creó un sitio web usando GPT-4. Lo hizo ingresando una foto de una idea de su cuaderno, y GPT-4 generó el código para el sitio web. Eso fue bastante impresionante. Estábamos convencidos de que el futuro estaba realmente cerca.

Pero, ¿qué tan cerca está? Hasta ahora, la experiencia multimodal más cercana que he tenido es con Bing Chat, que funciona con GPT-4. En teoría, podrías hacer búsquedas en línea usando imágenes y obtener resultados basados en eso. Sin embargo, Bing aún se siente poco pulido y necesita desarrollo. Un experimento realizado por roboflow mostró qué tan bueno es esta función multimodalidad de Bing.

Aquí hay algunos hallazgos destacados cubiertos en el informe –

“…El modelo fue deficiente al contar el número de personas presentes en una imagen. Sorprendentemente, pedirle al modelo un formato estructurado simple (en forma de JSON) funcionó mucho mejor que la mayoría de las otras indicaciones. Dicho esto, Bing no pudo extraer ubicaciones exactas o cuadros delimitadores, produciendo cuadros delimitadores fabricados o ninguna respuesta en absoluto…”

Roboflow concluyó las fortalezas y debilidades –

Una fortaleza del modelo subyacente de Bing Chat es su capacidad para reconocer características cualitativas, como el contexto y matices de una situación, en una imagen dada…

Y

Existen limitaciones notables en cómo se pueden utilizar las nuevas características de Bing, especialmente en casos de uso donde los datos cuantitativos son importantes.

Ciertamente, no puedes usarlo para hacer un sitio web, como se mostró en la demostración de Brockman, lo que hace que Bing sea ‘casi multimodal’ si no menos. Yo mismo le puse algunos memes y no pudo explicar el humor en ellos, de la misma manera que se mostró en la demostración en vivo. Esta función necesita algún ajuste, o mi gusto por los memes es malo en sí mismo. En mi caso, ambas opciones son igualmente probables (no soy un gran fan de los memes).

En este momento, solo Bing Search, basado en GPT-4, te permite realizar búsquedas usando imágenes. Pero las respuestas no están a la altura, parece ser.

En el caso de ChatGPT, especialmente GPT-4, puedes asociar vagamente la multimodalidad con el Intérprete de Código. Te permite trabajar con documentos e imágenes junto con el poder de ChatGPT. Alimentar un documento o imagen es realmente una ‘nueva entrada’ que difiere del texto, lo que hace que GPT-4 caiga bajo la multimodalidad. Por lo tanto, sería incorrecto decir que GPT-4 aún no es multimodal.

El intérprete de código brinda una muestra de la multimodalidad. Establece las expectativas de las futuras capacidades en ChatGPT.

¡Hola lectores! Espero que estén disfrutando de este artículo. Este artículo es parte de mi boletín Creative Block, un boletín semanal sobre tecnología e inteligencia artificial.

Si desean leer más contenido como este, visiten Creative Block.

Juzgando por la frase “producción artificial de habla y texto humano” de la marca registrada, es probable que GPT-5, si alguna vez se lanza, se base en gran medida en la multimodalidad. Un ChatGPT que pueda trabajar con (por supuesto) textos, además de imágenes, discursos, documentos, y demás.

Entonces, ¿eso significa que el lanzamiento de GPT-5 está cerca? No realmente, si creemos en Sam. Decir que GPT-5 se lanzará pronto contradeciría la declaración de Sam Altman. Confirmó que la compañía no estaba trabajando en GPT-5, en abril.

Entonces, si es cierto, el registro de la marca GPT-5 parece asegurar los derechos de su próxima iteración de modelos GPT de antemano. Esto mantendría a otras compañías a raya y reduciría la “competencia”. GPT-5 puede o no ser AGI como anticipan muchos, y los expertos parecen sugerir que AGI aún no es posible.

Sin embargo, hay otra perspectiva desde la cual ver este movimiento de registro de marca a través del lente de la exageración y la esperanza. Y OpenAI parece dominarlo desde temprano.

IV. Exageración, esperanza y sueños de AGI

En una publicación de blog, Sam declaró que la Inteligencia Artificial General (AGI) de su compañía beneficiará a la humanidad y que “tiene el potencial de brindar a todos capacidades increíbles y nuevas”.

Pero todavía estamos lejos de la AGI. ¿Es siquiera posible? No lo sabemos.

Los “expertos experimentados” creen que estamos lejos de la AGI. Mientras tanto, los “pesimistas de la IA” creen que estamos cerca de la AGI. Y los “influyentes de la IA” no les importa en absoluto mientras haya contenido adecuado por ahí. Todas estas personas tienen opiniones variadas sobre el futuro de la IA, pero un enlace los une a todos: en algún lugar, todos están remando en el río de la exageración. Algunos se oponen, y otros fluyen con ella. Y OpenAI parece manifestar el flujo.

La periodista Karen Hao, quien escribió un extenso informe sobre la cultura empresarial de OpenAI en 2020, sugiere que la cultura interna de OpenAI ha empezado a reflejarse menos en una IA segura y basada en investigación y más en superar a todos los demás. Por lo tanto, acusa a la compañía del “ciclo de exageración de la IA”.

Aquí hay un extracto de la publicación.

Pero la campaña mediática de OpenAI con GPT-2 también siguió un patrón bien establecido que ha generado desconfianza en la comunidad más amplia de la IA. A lo largo de los años… los anuncios de investigación llamativos han sido acusados repetidamente de alimentar el ciclo de exageración de la IA… los críticos también han acusado al laboratorio de exagerar sus resultados hasta el punto de tergiversarlos. Por estas razones, muchos en el campo han preferido mantener a OpenAI a distancia.

— Karen Hao en The messy, secretive reality behind OpenAI’s bid to save the world | MIT Technology Review

Pero supongamos que la exageración y los rumores son ciertos: OpenAI está construyendo GPT-5 en su mazmorra secreta.

Ellos afirman que GPT-5 será tan impresionante que hará que los humanos se cuestionen si ChatGPT ha alcanzado la AGI. El futuro está aquí, una vez más.

De acuerdo con las narrativas y la exageración, GPT-5 o ChatGPT 5 aportarían lo siguiente:

  • Capacidades multimodales: GPT-4 ya puede manejar imágenes y textos, lo cual es un buen comienzo. Pero aún queda espacio para entradas de audio y video. Empresas como Google y Meta ya demostraron el uso de diversas herramientas de texto a voz y texto a música. Google también experimentó con IA multimodal para desarrollar el modelo de lenguaje PaLM 2. Pero estas capacidades aún están fragmentadas. Si los rumores son ciertos, entonces el próximo ChatGPT sería una culminación de todas estas características multimodales. Un ChatGPT todo en uno, si es posible. Y, por supuesto, la competencia en la IA generativa obliga a OpenAI y a otras compañías de IA a innovar algo cercano a la AGI. Esa es la expectativa de esta carrera de IA impulsada por la exageración.
  • Mayor precisión: Si bien es imposible eliminar las alucinaciones, es decir, la tendencia de la IA a inventar hechos, hemos visto mejoras en las versiones más nuevas de GPT. Según OpenAI, GPT-4 tiene un 60% menos de probabilidades de inventar cosas. Los modelos de IA sucesivos intentan ser más precisos que sus versiones anteriores. Hemos visto esto en GPT-3 y GPT-4, Llama y Llama2, e incluso en Claude y Claude 2, donde la tasa de precisión mejoró notablemente. Es posible que la versión futura de GPT amplíe su conjunto de datos de entrenamiento para corregir las imprecisiones. Sin embargo, esto lo haría más pesado en recursos, ya que incluso el ChatGPT actual requiere $700,000 al día para funcionar. Si no hay una mejor manera de hacerlo más preciso y que demande menos recursos, GPT-5 estará lejos en un futuro cercano.
  • Inteligencia general artificial (AGI): Este es el destino final al que se dirige cada compañía de investigación en IA. Si es alcanzable o no todavía está en debate, pero es razonable decir que la AGI no se alcanzará en un futuro cercano. La AGI, en teoría, es una IA que puede hacer cualquier cosa por sí misma, pero cómo abordarla prácticamente es donde surge el obstáculo. Las computadoras no están ahí fuera en el mundo, y para realizar tareas para los humanos, necesitan interactuar con el entorno. ¿Cómo hacerlo? Nadie lo sabe con certeza, pero las respuestas parecen estar en la conjugación de la neurociencia y el aprendizaje profundo. Si GPT-5 logra la AGI —lo cual es muy especulativo— sería otro hito; no solo para la IA, sino para todo el campo de la tecnología. Resucitar una mente viva y pensante a partir de algoritmos sería sin duda maravilloso.

V. Forjando el sueño de la AGI

Mientras escribo esto, la solicitud de marca comercial GPT-5 está esperando examinación. Pero cada vez que cosas como esta acaparan los titulares, despiertan mucha curiosidad, así como especulación en la comunidad de IA. Siempre hay dos divisiones en la multitud: aquellos que lo ven de manera escéptica y aquellos que lo ven de manera optimista. Una clase cree en los hechos de ayer y la otra clase cree en las esperanzas de mañana. No obstante, ambas clases son igualmente importantes, especialmente cuando se trata de gobernar la IA.

Con regulaciones y leyes más estrictas, como el Reglamento de IA de la UE y el Proyecto de Ley de IA de los EE. UU., se está volviendo restrictivo para las empresas de IA afirmar avances. Pero, ¿son justificadas tales medidas estrictas? Yo creo que sí.

Si observas la cantidad de avances que ha habido en los últimos años en el ámbito de la IA, el crecimiento ha sido exponencial.

Pero los aspectos de seguridad, derivados de la creciente competencia en el mundo corporativo, son motivo de preocupación. OpenAI se convirtió en una empresa con fines de lucro. Los inversores comenzaron a quemar dinero detrás de cualquier empresa que se esté volviendo “alimentada por IA”, lo que hace que la competencia sea intensa en la carrera de la IA.

No es suficiente solo el progreso. Necesitamos progreso seguro, progreso seguro en el desarrollo de PNL, multimodalidad e inteligencia artificial general.

Pero buscar marcas comerciales, ya sea como forma de proteger la propiedad intelectual o como estrategia de marketing para crear hype y anticipación, no disminuye la competencia. Solo la aumenta.

Dicho esto, si GPT-5 va a estar a la altura de nuestras expectativas, sin duda sería un cambio de juego una vez más en el campo de la IA. Pero eso es si alguna vez se convierte en algo cercano a AGI, si no en AGI completa.

Sin embargo, incluso en nuestro sueño más loco, si LLEGAMOS a AGI, entonces la seguridad y la regulación tienen que ser la prioridad. De lo contrario, nuestra búsqueda de AGI en la carrera de la IA, en palabras de Hawking, podría significar el fin de la raza humana.

La AGI en estado salvaje puede hacer maravillas, incluso desde la perspectiva de la destrucción.

¿Estás interesado en mantenerte al día con los últimos eventos en tecnología, ciencia e IA?

Entonces no querrás perderte mi boletín semanal gratuito en substack, donde comparto ideas, noticias y análisis sobre todo lo relacionado con tecnología e IA.

Creative Block | Aditya Anil | Substack

Más de 100 suscriptores. El boletín semanal sobre IA, Tecnología y Ciencia que importa para ti. Haz clic para leer Creative…

creativeblock.substack.com