El primo de la IA de Michelangelo Neuralangelo es un modelo de IA que puede lograr una reconstrucción de superficie 3D de alta fidelidad [Código incluido]

El primo de Neuralangelo es un modelo de IA que logra una reconstrucción 3D precisa [Código incluido]

Las redes neuronales han avanzado significativamente en los últimos años y se han encontrado casos de uso en casi todas las aplicaciones. Uno de los casos de uso más interesantes es la modelación 3D del mundo real. Hemos visto los campos de radiancia neuronal (NeRF) que pueden capturar con precisión la geometría 3D de una escena utilizando cámaras normales y diarias. Estos avances han abierto una nueva página en la reconstrucción de superficies 3D.

El objetivo de la reconstrucción de superficies 3D es recuperar estructuras geométricas detalladas de una escena mediante el análisis de múltiples imágenes capturadas desde diversos puntos de vista. Estas superficies reconstruidas contienen información estructural valiosa que se puede aplicar a diversas aplicaciones, incluyendo la generación de activos 3D para realidad aumentada/virtual/mixta y mapeo de entornos para navegación robótica autónoma. Un enfoque particularmente intrigante es la reconstrucción de superficies fotogramétricas utilizando una sola cámara RGB, ya que permite a los usuarios crear fácilmente réplicas digitales del mundo real utilizando dispositivos móviles comunes.

La reconstrucción de superficies 3D juega un papel crucial en la generación de estructuras geométricas densas a partir de múltiples imágenes, lo que permite una amplia gama de aplicaciones como realidad aumentada/virtual/mixta y robótica. Si bien los métodos clásicos, como los algoritmos estéreo de múltiples vistas, han sido populares para la reconstrucción 3D dispersa, a menudo tienen dificultades con observaciones ambiguas y producen resultados inexactos o incompletos. Los métodos de reconstrucción de superficies neuronales han surgido como una solución prometedora al aprovechar perceptrones multicapa (MLPs) basados en coordenadas para representar escenas como funciones implícitas. Sin embargo, la fidelidad de los métodos actuales no escala bien con la capacidad de MLP.

¿Qué pasaría si pudiéramos tener un método que resolviera el problema de escala? ¿Qué pasaría si pudiéramos generar modelos de superficie 3D con precisión utilizando solo entradas RGB? Es hora de conocer a Neuralangelo.

Neuralangelo puede reconstruir superficies 3D a partir de imágenes RGB. Fuente: https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf

Neuralangelo es un marco que combina el poder de Instant NGP (Neural Graphics Primitives) y la representación neural SDF para lograr una reconstrucción de superficie de alta fidelidad.

Neuralangelo adopta Instant NGP como una función de distancia firmada (SDF) neural de la escena 3D subyacente. Instant NGP introduce una estructura de cuadrícula 3D híbrida con una codificación hash multirresolución, junto con un MLP liviano que mejora la expresividad al tiempo que mantiene una huella de memoria log-lineal. Esta representación híbrida mejora significativamente el poder de representación de los campos neuronales y sobresale en la captura de detalles finos.

Para mejorar aún más la calidad de la reconstrucción de superficie codificada por hash, Neuralangelo introduce dos técnicas clave. En primer lugar, se utilizan gradientes numéricos para calcular derivadas de orden superior, como las normales de la superficie, que contribuyen a estabilizar el proceso de optimización. En segundo lugar, se implementa un programa de optimización progresiva para recuperar estructuras en diferentes niveles de detalle, lo que permite un enfoque de reconstrucción integral. Estas técnicas trabajan en sinergia, lo que lleva a mejoras sustanciales tanto en la precisión de la reconstrucción como en la calidad de la síntesis de vistas.

Resumen de Neuralangelo. Fuente: https://research.nvidia.com/labs/dir/neuralangelo/poster.pdf

Neuralangelo incorpora naturalmente el poder de la codificación de hash multirresolución en las representaciones SDF neuronales, lo que resulta en capacidades de reconstrucción mejoradas. En segundo lugar, el uso de gradientes numéricos y regularización eikonal ayuda a mejorar la calidad de la reconstrucción de superficie codificada por hash al estabilizar el proceso de optimización. Por último, experimentos extensos en conjuntos de datos estándar y escenas del mundo real demuestran la eficacia de Neuralangelo, mostrando mejoras significativas en comparación con los métodos de reconstrucción de superficie neuronal basados en imágenes anteriores en términos de precisión de reconstrucción y calidad de síntesis de vistas.