Conoce el modelo de IA RT-2 de Google un robot que aprende como un humano

Conoce el modelo de IA RT-2 de Google, un robot que aprende como un humano.

Aunque las redes neuronales están inspiradas en la forma en que funcionan los cerebros humanos, no son exactamente lo mismo. Sin embargo, si el nuevo modelo RT-2 de Google funciona como se promete, podría ser un gran avance en la dirección de una IA similar a la humana. Presentado por DeepMind de Google, el modelo promete aprender tanto de datos web como de robótica, lo cual se traduce en instrucciones generalizadas para el control robótico.

En resumen, el objetivo sería establecer un puente de comunicación entre humanos y robots, pero eso no es todo. Enseñaría poniendo palabras en acción. Entonces, ¿qué es exactamente RT-2? Bueno, según el equipo, es un modelo visión-lenguaje-acción, o VLA. Fue desarrollado utilizando técnicas basadas en transformadores y entrenado tanto en datos de texto como de imágenes extraídos de la web.

En su publicación, dijeron sobre el entrenamiento: “RT-2 se basa en VLM que toman una o más imágenes como entrada y producen una secuencia de tokens que, convencionalmente, representan texto en lenguaje natural…. adaptamos el modelo de lenguaje e imagen de Pathways (PaLI-X) y el modelo de lenguaje encarnado de Pathways (PaLM-E) para actuar como pilares de RT-2”.

Hasta ahora, no es tan interesante. Pero donde reside la innovación de RT-2 es en su capacidad para entrenar robots. El modelo toma datos web, conceptos e ideas generales, y luego aplica ese conocimiento para ayudar a informar el comportamiento robótico. Pero, ¿cómo se entrenó RT-2 en sus tareas?

Bueno, según la publicación de Google: “Cada tarea requería comprender conceptos visuales-semánticos y la capacidad de realizar el control robótico para operar en estos conceptos. Comandos como “recoge la bolsa que está a punto de caerse de la mesa” o “mueve el plátano a la suma de dos más uno”, donde se le pide al robot que realice una tarea de manipulación sobre objetos o escenarios nunca vistos en los datos robóticos, requerían conocimiento traducido de datos basados en la web para operar”.

Bueno, en esencia, enseña a los robots a comprender y hablar el lenguaje de sus operaciones humanas. Y esto ha sido una tarea difícil ya que las tareas complejas y los robots han tenido una mala relación durante algún tiempo. Gran parte de esto se debe a las variables físicas que los robots deben abordar, que no se ven con sus contrapartes de chatbots.

Esto requiere que adquieran una base de conceptos e ideas abstractas. Algo con lo que muchos programas de IA populares no necesitan preocuparse. Como se mencionó anteriormente, con la ayuda de modelos que proporcionan una mejor comprensión de su entorno, estamos presenciando cómo la robótica se beneficia de los avances en IA.

Todo esto puede reemplazar potencialmente los métodos tradicionales de entrenamiento robótico que requerían miles de millones de puntos de datos relacionados con el entorno. Esto era una empresa que consumía mucho tiempo y recursos. Entonces, con la capacidad de RT-2 para transferir conocimientos y conceptos a dispositivos robóticos, es probable que veamos un mayor impulso hacia la tecnología robótica adaptable.

Y con los avances en modelado visual, se puede esperar que la tecnología robótica continúe avanzando rápidamente gracias a la IA.