Investigación de Google en I/O 2023
'Google research at I/O 2023'
Publicado por James Manyika, SVP de Investigación y Tecnología y Sociedad de Google, y Jeff Dean, Científico Jefe de Google DeepMind y Google Research
El miércoles 10 de mayo fue un día emocionante para la comunidad de investigación de Google, ya que observamos los resultados de meses y años de nuestro trabajo fundamental y aplicado anunciados en el escenario de Google I/O. Con el rápido ritmo de los anuncios en el escenario, puede ser difícil transmitir el importante esfuerzo y las innovaciones únicas que subyacen a las tecnologías que presentamos. Por lo tanto, hoy estamos emocionados de revelar más sobre los esfuerzos de investigación detrás de algunos de los muchos anuncios convincentes en el I/O de este año.
PaLM 2
Nuestro modelo de lenguaje grande (LLM) de próxima generación, PaLM 2, se basa en avances en la escalabilidad óptima de la computación, el ajuste fino de la instrucción escalada y la mezcla mejorada del conjunto de datos. Al ajustar finamente y ajustar la instrucción del modelo para diferentes propósitos, hemos sido capaces de integrar capacidades de vanguardia en más de 25 productos y características de Google, donde ya está ayudando a informar, asistir y deleitar a los usuarios. Por ejemplo:
- Bard es un experimento temprano que te permite colaborar con la IA generativa y ayuda a impulsar la productividad, acelerar las ideas y alimentar la curiosidad. Se basa en avances en la eficiencia del aprendizaje profundo y aprovecha el aprendizaje por refuerzo de la retroalimentación humana para proporcionar respuestas más relevantes y aumentar la capacidad del modelo para seguir instrucciones. Bard ya está disponible en 180 países, donde los usuarios pueden interactuar con él en inglés, japonés y coreano, y gracias a las capacidades multilingües proporcionadas por PaLM 2, el soporte para 40 idiomas llegará pronto.
- Con la Búsqueda de Experiencia Generativa estamos quitando más trabajo de la búsqueda, para que puedas comprender un tema más rápidamente, descubrir nuevos puntos de vista y conocimientos, y hacer las cosas más fácilmente. Como parte de este experimento, verás una instantánea impulsada por IA de la información clave a considerar, con enlaces para profundizar.
- MakerSuite es un entorno de prototipado fácil de usar para la API de PaLM, impulsado por PaLM 2. De hecho, la participación de los usuarios internos con prototipos tempranos de MakerSuite aceleró el desarrollo de nuestro modelo PaLM 2 en sí. MakerSuite surgió de una investigación enfocada en herramientas de provocación, o herramientas diseñadas explícitamente para personalizar y controlar LLMs. Esta línea de investigación incluye PromptMaker (precursor de MakerSuite), y AI Chains y PromptChainer (uno de los primeros esfuerzos de investigación que demuestran la utilidad de la encadenación LLM).
- El proyecto Tailwind también hizo uso de los prototipos de investigación temprana de MakerSuite para desarrollar características que ayudan a los escritores e investigadores a explorar ideas y mejorar su prosa; su prototipo de bloc de notas AI-first usó PaLM 2 para permitir a los usuarios hacer preguntas del modelo fundamentadas en los documentos que definen.
- Med-PaLM 2 es nuestro modelo médico LLM de vanguardia, construido sobre PaLM 2. Med-PaLM 2 logró un rendimiento del 86,5% en preguntas de estilo de examen de licencia médica de EE. UU., lo que ilustra su emocionante potencial para la salud. Ahora estamos explorando capacidades multimodales para sintetizar entradas como radiografías.
- Codey es una versión de PaLM 2 ajustada finamente en el código fuente para funcionar como asistente de desarrollador. Admite una amplia gama de características de IA de código, incluyendo completados de código, explicaciones de código, corrección de errores, migración de código fuente, explicaciones de errores y más. Codey está disponible a través de nuestro programa de prueba de confianza a través de IDEs (Colab, Android Studio, Duet AI for Cloud, Firebase) y a través de una API dirigida a 3P.
Tal vez aún más emocionante para los desarrolladores, hemos abierto las API de PaLM y MakerSuite para brindar oportunidades a la comunidad para innovar utilizando esta tecnología innovadora.
![]() |
PaLM 2 tiene capacidades de codificación avanzadas que le permiten encontrar errores de código y hacer sugerencias en varios idiomas diferentes. |
Imagen
Nuestra familia de modelos de generación y edición de imágenes, Imagen, se basa en los avances en modelos de lenguaje grandes basados en Transformadores y modelos de difusión. Esta familia de modelos se está incorporando en múltiples productos de Google, incluyendo:
- La generación de imágenes en Google Slides y el fondo de pantalla de IA generativa de Android están impulsados por nuestras funciones de generación de texto a imagen.
- Vertex AI de Google Cloud permite la generación de imágenes, la edición de imágenes, el aumento de la resolución de imágenes y el ajuste fino para ayudar a los clientes empresariales a satisfacer sus necesidades comerciales.
- I/O Flip, una versión digital de un juego de cartas clásico, presenta mascotas de desarrolladores de Google en cartas que fueron generadas completamente por IA. Este juego mostró una técnica de ajuste fino llamada DreamBooth para adaptar modelos de generación de imágenes pre-entrenados. Usando solo un puñado de imágenes como entradas para el ajuste fino, permite a los usuarios generar imágenes personalizadas en minutos. Con DreamBooth, los usuarios pueden sintetizar un sujeto en escenas, poses, vistas y condiciones de iluminación diversas que no aparecen en las imágenes de referencia. ——————————————————————————————————————————————————————————————————————————————————————————–
I/O Flip presenta barajas de cartas personalizadas diseñadas con DreamBooth. ——————————————————————————————————————————————————————————————————————————————————————————–
Phenaki
Phenaki, el modelo de generación de texto a video basado en Transformadores de Google, fue presentado en el pre-show de I/O. Phenaki es un modelo que puede sintetizar videos realistas a partir de secuencias de texto de inicio mediante dos componentes principales: un modelo codificador-decodificador que comprime videos a incrustaciones discretas y un modelo Transformer que traduce incrustaciones de texto a tokens de video.
![]() |
![]() |
ARCore y la API Semántica de Escena
Entre las nuevas características de ARCore anunciadas por el equipo de AR en I/O, la API Semántica de Escena puede reconocer la semántica píxel a píxel en una escena al aire libre. Esto ayuda a los usuarios a crear experiencias de AR personalizadas basadas en las características del área circundante. Esta API está potenciada por el modelo de segmentación semántica al aire libre, aprovechando nuestros trabajos recientes en torno a la arquitectura DeepLab y un conjunto de datos de comprensión de escenas al aire libre egocéntricas. La última versión de ARCore también incluye un modelo de profundidad monocular mejorado que proporciona una mayor precisión en escenas al aire libre.
![]() |
La API de Semántica de Escenas utiliza un modelo de segmentación semántica basado en DeepLab para proporcionar etiquetas precisas de píxeles en una escena al aire libre. |
Chirp
Chirp es la familia de modelos de habla universal de última generación de Google, entrenados en 12 millones de horas de habla para permitir el reconocimiento automático de voz (ASR) en más de 100 idiomas. Los modelos pueden realizar ASR en idiomas con recursos limitados, como amhárico, cebuano y asamés, además de idiomas ampliamente hablados como el inglés y el mandarín. Chirp puede cubrir una amplia variedad de idiomas aprovechando el aprendizaje auto-supervisado en un conjunto de datos multilingüe no etiquetado con ajuste fino en un conjunto de datos etiquetados más pequeño. Chirp ahora está disponible en la API de Google Cloud Speech-to-Text, lo que permite a los usuarios realizar inferencias en el modelo a través de una interfaz sencilla. Puede comenzar con Chirp aquí.
MusicLM
En I/O, lanzamos MusicLM, un modelo de texto a música que genera 20 segundos de música a partir de una indicación de texto. Puede probarlo usted mismo en AI Test Kitchen, o verlo destacado durante la presentación de I/O, donde el músico electrónico y compositor Dan Deacon utilizó MusicLM en su actuación.
MusicLM, que consta de modelos impulsados por AudioLM y MuLAN, puede hacer música (a partir de texto, tarareo, imágenes o vídeo) y acompañamientos musicales para cantar. AudioLM genera audio de alta calidad con consistencia a largo plazo. Mapea el audio a una secuencia de tokens discretos y lanza la generación de audio como una tarea de modelado de lenguaje. Para sintetizar salidas más largas de manera eficiente, utilizó un enfoque novedoso que hemos desarrollado llamado SoundStorm.
Doblaje del traductor universal
Nuestros esfuerzos de doblaje utilizan docenas de tecnologías de aprendizaje automático para traducir todo el rango expresivo del contenido de video, haciendo que los videos sean accesibles para audiencias de todo el mundo. Estas tecnologías se han utilizado para doblar videos en una variedad de productos y tipos de contenido, incluyendo contenido educativo, campañas publicitarias y contenido de creadores, con más por venir. Utilizamos la tecnología de aprendizaje profundo para lograr la preservación de la voz y el emparejamiento de labios y permitir la traducción de video de alta calidad. Hemos construido este producto para incluir una revisión humana de calidad, controles de seguridad para ayudar a prevenir el uso indebido, y lo hacemos accesible solo a socios autorizados.
IA para el bienestar social global
Estamos aplicando nuestras tecnologías de IA para resolver algunos de los mayores desafíos globales, como la mitigación del cambio climático, la adaptación a un planeta en calentamiento y la mejora de la salud y el bienestar humanos. Por ejemplo:
- Los ingenieros de tráfico utilizan nuestras recomendaciones de Green Light para reducir el tráfico en las intersecciones y mejorar el flujo de tráfico en ciudades desde Bangalore hasta Río de Janeiro y Hamburgo. Green Light modela cada intersección, analizando los patrones de tráfico para desarrollar recomendaciones que hagan que los semáforos sean más eficientes, por ejemplo, mediante una mejor sincronización de los tiempos entre luces adyacentes o ajustando el “tiempo verde” para una calle y dirección determinadas.
- También hemos ampliado la cobertura mundial en Flood Hub a 80 países, como parte de nuestros esfuerzos para predecir inundaciones fluviales y alertar a las personas que están a punto de verse afectadas antes de que ocurra el desastre. Nuestros esfuerzos de pronóstico de inundaciones se basan en modelos hidrológicos informados por observaciones satelitales, pronósticos meteorológicos y mediciones in situ.
Tecnologías para aplicaciones de aprendizaje automático inclusivas y justas
Con nuestra inversión continua en tecnologías de IA, estamos enfatizando el desarrollo responsable de la IA con el objetivo de hacer que nuestros modelos y herramientas sean útiles e impactantes, al mismo tiempo que garantizamos la equidad, la seguridad y la alineación con nuestros Principios de IA. Algunos de estos esfuerzos se destacaron en I/O, incluyendo:
- El lanzamiento del conjunto de datos Monk Skin Tone Examples (MST-E) para ayudar a los profesionales a comprender mejor la escala MST y capacitar a los anotadores humanos para obtener anotaciones de tono de piel más consistentes, inclusivas y significativas. Puedes leer más sobre esto y otros desarrollos en nuestro sitio web. Este es un avance en la liberación de código abierto de la escala Monk Skin Tone (MST) que lanzamos el año pasado para permitir que los desarrolladores construyan productos más inclusivos y que representen mejor a sus diversos usuarios.
- Una nueva competencia de Kaggle (abierta hasta el 10 de agosto) en la que la comunidad de aprendizaje automático tiene la tarea de crear un modelo que pueda identificar rápidamente y con precisión el alfabeto dactilológico de la lengua de señas americana (ASL), donde cada letra de una palabra se deletrea en ASL rápidamente con una sola mano, en lugar de usar los signos específicos para palabras enteras, y traducirlo a texto escrito. Obtenga más información sobre la competencia de deletreo de dedos Kaggle, que presenta una canción de Sean Forbes, un músico y rapero sordo. También en I/O, presentamos el algoritmo ganador de la competencia del año anterior que impulsa PopSign, una aplicación de aprendizaje de ASL para padres de niños sordos o con problemas de audición creada por Georgia Tech y Rochester Institute of Technology (RIT).
Construyendo el futuro de la IA juntos
Es inspirador ser parte de una comunidad de tantas personas talentosas que lideran el camino en el desarrollo de tecnologías de última generación, enfoques de IA responsables y experiencias de usuario emocionantes. Estamos en medio de un período de cambios increíbles y transformadores para la IA. Estén atentos para recibir más actualizaciones sobre las formas en que la comunidad de Investigación de Google está explorando audazmente las fronteras de estas tecnologías y utilizándolas de manera responsable para beneficiar la vida de las personas en todo el mundo. Esperamos que estén tan emocionados como nosotros sobre el futuro de las tecnologías de IA y los invitamos a interactuar con nuestros equipos a través de las referencias, sitios y herramientas que hemos destacado aquí.