Trascendiendo en la Consistencia Este modelo de IA enseña a los modelos de difusión la conciencia 3D para una generación de texto a 3D robusta.

IA enseña a modelos de difusión la conciencia 3D para generar texto a 3D robusto.

Los modelos de Texto-a-X han crecido rápidamente recientemente, con la mayoría de los avances en los modelos de Texto-a-Imagen. Estos modelos pueden generar imágenes fotorrealistas utilizando la indicación de texto dada.

La generación de imágenes es solo uno de los componentes de un panorama integral de investigación en este campo. Si bien es un aspecto importante, también existen otros modelos de Texto-a-X que desempeñan un papel crucial en diferentes aplicaciones. Por ejemplo, los modelos de Texto-a-Video tienen como objetivo generar videos realistas basados en una indicación de texto dada. Estos modelos pueden acelerar significativamente el proceso de preparación de contenido.

Por otro lado, la generación de texto-a-3D ha surgido como una tecnología crítica en los campos de la visión por computadora y los gráficos. Aunque aún está en sus etapas iniciales, la capacidad de generar modelos 3D realistas a partir de una entrada textual ha despertado un gran interés tanto de investigadores académicos como de profesionales de la industria. Esta tecnología tiene un potencial inmenso para revolucionar diversas industrias, y expertos de múltiples disciplinas están monitoreando de cerca su desarrollo continuo.

Neural Radiance Fields (NeRF) es un enfoque introducido recientemente que permite renderizar escenas 3D complejas de alta calidad a partir de un conjunto de imágenes 2D o un conjunto disperso de puntos 3D. Se han propuesto varios métodos para combinar modelos de Texto-a-3D con NeRF para obtener escenas 3D más agradables. Sin embargo, a menudo sufren de distorsiones y artefactos y son sensibles a las indicaciones de texto y las semillas aleatorias.

En particular, el problema de incoherencia 3D es un problema común en el que las escenas 3D renderizadas producen características geométricas que pertenecen a la vista frontal múltiples veces en varios puntos de vista, lo que resulta en distorsiones graves en la escena 3D. Esta falla ocurre debido a la falta de conocimiento del modelo de difusión 2D sobre la información 3D, especialmente la posición de la cámara.

¿Y si hubiera una forma de combinar modelos de Texto-a-3D con el avance en NeRF para obtener renders 3D realistas? Es hora de conocer a 3DFuse.

Visión general del pipeline de 3DFuse. Fuente: https://ku-cvlab.github.io/3DFuse/

3DFuse es un enfoque intermedio que combina un modelo de difusión 2D pre-entrenado con conocimiento en 3D para hacerlo adecuado para la optimización coherente en 3D de NeRF. Inyecta efectivamente el conocimiento en 3D en los modelos de difusión 2D pre-entrenados.

3DFuse comienza con el muestreo de un código semántico para acelerar la identificación semántica de la escena generada. Este código semántico es en realidad la imagen generada y la indicación de texto dada para el modelo de difusión. Una vez que se completa este paso, el módulo de inyección de consistencia de 3DFuse toma este código semántico y obtiene un mapa de profundidad específico para el punto de vista proyectando una geometría 3D áspera para el punto de vista dado. Utilizan un modelo existente para lograr este mapa de profundidad. El mapa de profundidad y el código semántico se utilizan luego para inyectar información 3D en el modelo de difusión.

Visión general de 3DFuse. Fuente: https://ku-cvlab.github.io/3DFuse/

El problema aquí es que la geometría 3D predicha es propensa a errores, lo que podría alterar la calidad del modelo 3D generado. Por lo tanto, debe ser manejado antes de continuar en el pipeline. Para resolver este problema, 3DFuse introduce un inyector de profundidad dispersa que sabe implícitamente cómo corregir información de profundidad problemática.

Al destilar la puntuación del modelo de difusión que produce imágenes 3D consistentes, 3DFuse optimiza de manera estable NeRF para la generación de texto a 3D consistente con la vista. El marco logra una mejora significativa en la calidad de generación y la consistencia geométrica en comparación con trabajos anteriores.