Reconstruyendo espacios interiores con NeRF
Reconstructing indoor spaces with NeRF.
Marcos Seefelder, Ingeniero de Software, y Daniel Duckworth, Ingeniero de Investigación de Software, Google Research
Cuando elegimos un lugar, a menudo nos hacemos preguntas como: ¿Este restaurante tiene la vibra adecuada para una cita? ¿Hay buenos asientos al aire libre? ¿Hay suficientes pantallas para ver el partido? Si bien las fotos y los videos pueden responder parcialmente preguntas como estas, no son un sustituto de sentir que estás allí, incluso cuando visitar en persona no es una opción.
Las experiencias inmersivas que son interactivas, fotorrealistas y multidimensionales pueden ayudar a cerrar esta brecha y recrear la sensación y la vibra de un espacio, permitiendo a los usuarios encontrar naturalmente e intuitivamente la información que necesitan. Para ayudar con esto, Google Maps lanzó Immersive View, que utiliza avances en aprendizaje automático (ML) y visión por computadora para fusionar miles de millones de imágenes de Street View y aéreas para crear un modelo digital rico del mundo. Además, agrega información útil como el clima, el tráfico y cuán concurrido está un lugar. Immersive View proporciona vistas interiores de restaurantes, cafeterías y otros lugares para dar a los usuarios una vista de cerca virtual que puede ayudarles a decidir dónde ir con confianza.
Hoy describimos el trabajo realizado para ofrecer estas vistas interiores en Immersive View. Nos basamos en campos de radiance neurales (NeRF), un enfoque de última generación para fusionar fotos para producir una reconstrucción realista y multidimensional dentro de una red neuronal. Describimos nuestro proceso para la creación de NeRFs, que incluye la captura personalizada de fotos del espacio utilizando cámaras DSLR, procesamiento de imágenes y reproducción de escenas. Aprovechamos los avances recientes de Alphabet en el campo para diseñar un método que iguala o supera el estado del arte anterior en fidelidad visual. Estos modelos se incrustan como videos interactivos de 360 ° siguiendo trayectorias de vuelo seleccionadas, lo que permite que estén disponibles en teléfonos inteligentes.
La reconstrucción de The Seafood Bar en Amsterdam en Immersive View. |
De fotos a NeRFs
En el centro de nuestro trabajo está NeRF, un método desarrollado recientemente para la reconstrucción 3D y síntesis de vistas novedosas. Dado un conjunto de fotos que describen una escena, NeRF destila estas fotos en un campo neuronal, que luego se puede usar para renderizar fotos desde puntos de vista que no están presentes en la colección original.
- Crear una aplicación web de optimización de cadena de suministro so...
- Ayudaron a entrenar el AI de Google. Luego fueron despedidos despué...
- Construya un flujo de trabajo de traducción automática multilingüe ...
Si bien NeRF resuelve en gran medida el desafío de la reconstrucción, un producto para el usuario basado en datos del mundo real presenta una amplia variedad de desafíos. Por ejemplo, la calidad de la reconstrucción y la experiencia del usuario deben mantenerse consistentes en todos los lugares, desde bares con poca luz hasta cafeterías en la acera hasta restaurantes de hoteles. Al mismo tiempo, se debe respetar la privacidad y eliminar cualquier información potencialmente identificable personalmente. Es importante que las escenas se capturen de manera consistente y eficiente, lo que garantiza reconstrucciones de alta calidad mientras se minimiza el esfuerzo necesario para capturar las fotografías necesarias. Por último, la misma experiencia natural debe estar disponible para todos los usuarios móviles, independientemente del dispositivo que tengan en mano.
El proceso de reconstrucción interior de Immersive View. |
Captura y preprocesamiento
El primer paso para producir un NeRF de alta calidad es la captura cuidadosa de una escena: una colección densa de fotos a partir de la cual se puede derivar la geometría y el color en 3D. Para obtener la mejor calidad de reconstrucción posible, cada superficie debe observarse desde múltiples direcciones diferentes. Cuanta más información tenga un modelo sobre la superficie de un objeto, mejor será en descubrir la forma del objeto y la forma en que interactúa con la luz.
Además, los modelos NeRF hacen más suposiciones sobre la cámara y la escena en sí. Por ejemplo, se supone que la mayoría de las propiedades de la cámara, como el balance de blancos y la apertura, son fijas durante la captura. De la misma manera, se asume que la escena en sí está congelada en el tiempo: se deben evitar los cambios de iluminación y el movimiento. Esto debe equilibrarse con preocupaciones prácticas, como el tiempo necesario para la captura, la iluminación disponible, el peso del equipo y la privacidad. En asociación con fotógrafos profesionales, desarrollamos una estrategia para capturar fotos del lugar de manera rápida y confiable utilizando cámaras DSLR en solo una hora. Este enfoque se ha utilizado para todas nuestras reconstrucciones NeRF hasta la fecha.
Una vez que se carga la captura en nuestro sistema, comienza el procesamiento. Como las fotos pueden contener información confidencial sin querer, escaneamos automáticamente y difuminamos el contenido personalmente identificable. Luego aplicamos un proceso de estructura a partir del movimiento para resolver los parámetros de la cámara de cada foto: su posición y orientación en relación con otras fotos, junto con propiedades de lentes como la longitud focal. Estos parámetros asocian cada píxel con un punto y una dirección en el espacio 3D y constituyen una señal clave en el proceso de reconstrucción de NeRF.
Reconstrucción de NeRF
A diferencia de muchos modelos de aprendizaje automático, un nuevo modelo de NeRF se entrena desde cero en cada ubicación capturada. Para obtener la mejor calidad de reconstrucción posible dentro de un presupuesto de cómputo objetivo, incorporamos características de una variedad de trabajos publicados sobre NeRF desarrollados en Alphabet. Algunos de estos incluyen:
- Basándonos en mip-NeRF 360, uno de los modelos de NeRF con mejor rendimiento hasta la fecha. Si bien es más intensivo computacionalmente que Instant NGP ampliamente utilizado por Nvidia, encontramos que mip-NeRF 360 produce consistentemente menos artefactos y una mayor calidad de reconstrucción.
- Incorporamos los vectores de optimización latente generativos de baja dimensión (GLO) introducidos en NeRF en la naturaleza como una entrada auxiliar a la red de radiación del modelo. Estos son vectores latentes de valor real que aprenden información de apariencia para cada imagen. Al asignar cada imagen en su propio vector latente, el modelo puede capturar fenómenos como los cambios de iluminación sin recurrir a la geometría nublada, un artefacto común en las capturas de NeRF casuales.
- También incorporamos el condicionamiento de exposición introducido en Block-NeRF. A diferencia de los vectores GLO, que son parámetros de modelo ininterpretables, la exposición se deriva directamente de los metadatos de una foto y se alimenta como una entrada adicional a la red de radiación del modelo. Esto ofrece dos beneficios principales: abre la posibilidad de variar el ISO y proporciona un método para controlar el brillo de una imagen en el momento de la inferencia. Encontramos que ambas propiedades son invaluables para capturar y reconstruir lugares con poca luz.
Entrenamos cada modelo de NeRF en aceleradores TPU o GPU, que proporcionan diferentes puntos de compensación. Como con todos los productos de Google, continuamos buscando nuevas formas de mejorar, desde la reducción de los requisitos de cómputo hasta la mejora de la calidad de reconstrucción.
Una comparación lado a lado de nuestro método y una línea de base de mip-NeRF 360. |
Una experiencia de usuario escalable
Una vez que se entrena un NeRF, tenemos la capacidad de producir nuevas fotos de una escena desde cualquier punto de vista y lente de cámara que elijamos. Nuestro objetivo es ofrecer una experiencia de usuario significativa y útil: no solo las reconstrucciones en sí, sino también visitas guiadas e interactivas que brinden a los usuarios la libertad de explorar naturalmente espacios desde la comodidad de sus teléfonos inteligentes.
Con este fin, diseñamos un reproductor de video de 360º controlable que simula volar a través de un espacio interior a lo largo de un camino predefinido, permitiendo al usuario mirar libremente y viajar hacia adelante o hacia atrás. Como primer producto de Google que explora esta nueva tecnología, se eligieron videos de 360 grados como formato para ofrecer el contenido generado por algunas razones.
En el lado técnico, la inferencia en tiempo real y las representaciones cocidas siguen siendo intensivas en recursos por cliente (ya sea en el dispositivo o en la nube calculada), y depender de ellas limitaría el número de usuarios capaces de acceder a esta experiencia. Al utilizar videos, podemos escalar el almacenamiento y la entrega de videos a todos los usuarios aprovechando la misma infraestructura de gestión y servicio de video utilizada por YouTube. En el lado operativo, los videos nos dan un control editorial más claro sobre la experiencia de exploración y son más fáciles de inspeccionar en grandes volúmenes.
Aunque habíamos considerado capturar el espacio con una cámara de 360 grados directamente, el uso de un NeRF para reconstruir y renderizar el espacio tiene varias ventajas. Una cámara virtual puede volar a cualquier lugar del espacio, incluidos obstáculos y ventanas, y puede usar cualquier lente de cámara deseada. La ruta de la cámara también se puede editar posteriormente para suavidad y velocidad, a diferencia de una grabación en vivo. Una captura de NeRF tampoco requiere el uso de hardware de cámara especializado.
Nuestros videos de 360 grados se renderizan mediante el lanzamiento de rayos a través de cada píxel de una cámara virtual esférica y componiendo los elementos visibles de la escena. Cada video sigue un camino suave definido por una secuencia de fotos clave tomadas por el fotógrafo durante la captura. La posición de la cámara para cada imagen se calcula durante la estructura a partir del movimiento, y la secuencia de imágenes se interpola suavemente en un camino de vuelo.
Para mantener la velocidad constante en diferentes lugares, calibramos las distancias para cada uno capturando pares de imágenes, cada una de las cuales está separada por 3 metros. Conocer las medidas en el espacio nos permite escalar el modelo generado, y renderizar todos los videos a una velocidad natural.
La experiencia final se muestra al usuario dentro de Immersive View: el usuario puede volar sin problemas a restaurantes y otros lugares cerrados y descubrir el espacio volando a través de los videos de 360 grados fotorrealistas.
Preguntas de investigación abiertas
Creemos que esta función es el primer paso de muchos en un viaje hacia experiencias inmersivas impulsadas por la IA universalmente accesibles. Desde una perspectiva de investigación de NeRF, quedan abiertas más preguntas. Algunas de estas incluyen:
- Mejora de las reconstrucciones con segmentación de escenas, agregando información semántica a las escenas que podría hacer que sean, por ejemplo, buscables y más fáciles de navegar.
- Adaptación de NeRF a colecciones de fotos al aire libre, además de interiores. Al hacerlo, desbloquearíamos experiencias similares en cada rincón del mundo y cambiaríamos la forma en que los usuarios podrían experimentar el mundo exterior.
- Posibilitar la exploración 3D interactiva en tiempo real a través de renderizado neuronal en el dispositivo.
Reconstrucción de una escena al aire libre con un modelo NeRF entrenado en panoramas de Street View. |
A medida que seguimos creciendo, esperamos interactuar y contribuir a la comunidad para construir la próxima generación de experiencias inmersivas.
Reconocimientos
Este trabajo es una colaboración entre varios equipos de Google. Los contribuyentes al proyecto incluyen a Jon Barron, Julius Beres, Daniel Duckworth, Roman Dudko, Magdalena Filak, Mike Harm, Peter Hedman, Claudio Martella, Ben Mildenhall, Cardin Moffett, Etienne Pot, Konstantinos Rematas, Yves Sallat, Marcos Seefelder, Lilyana Sirakovat, Sven Tresp y Peter Zhizhin.
También queremos agradecer a Luke Barrington, Daniel Filip, Tom Funkhouser, Charles Goran, Pramod Gupta, Mario Lučić, Isalo Montacute y Dan Thomasset por sus valiosos comentarios y sugerencias.