Avanzando en el relleno de imágenes Acortando la brecha entre manipulaciones 2D y 3D con este novedoso relleno de IA para Campos de Radiación Neurales

Relleno de imágenes con IA para Campos de Radiación Neurales, acortando la brecha entre manipulaciones 2D y 3D.

Ha habido un interés duradero en la manipulación de imágenes debido a su amplio rango de aplicaciones en la creación de contenido. Una de las manipulaciones más estudiadas es la eliminación e inserción de objetos, a menudo denominada tarea de relleno de imágenes. Si bien los modelos de relleno actuales son expertos en generar contenido visualmente convincente que se integra perfectamente con la imagen circundante, su aplicabilidad tradicionalmente se ha limitado a entradas de imágenes 2D individuales. Sin embargo, algunos investigadores están tratando de avanzar en la aplicación de tales modelos a la manipulación de escenas 3D completas.

La aparición de los Campos de Radiación Neural (NeRF) ha facilitado la transformación de fotos reales en 2D en representaciones 3D realistas. A medida que las mejoras algorítmicas continúan y las demandas computacionales disminuyen, estas representaciones 3D pueden volverse comunes. Por lo tanto, la investigación tiene como objetivo permitir manipulaciones similares de NeRFs 3D como las disponibles para imágenes 2D, con un enfoque particular en el relleno.

El relleno de objetos 3D presenta desafíos únicos, como la escasez de datos 3D y la necesidad de considerar tanto la geometría como la apariencia 3D. El uso de NeRFs como representación de escena introduce complejidades adicionales. La naturaleza implícita de las representaciones neuronales hace que sea impráctico modificar directamente la estructura de datos subyacente basándose en la comprensión geométrica. Además, debido a que los NeRFs se entrenan a partir de imágenes, mantener la consistencia en múltiples vistas plantea desafíos. El relleno independiente de imágenes constituyentes individuales puede generar inconsistencias en los puntos de vista y resultados visualmente irreales.

Se han intentado varios enfoques para abordar estos desafíos. Por ejemplo, algunos métodos buscan resolver inconsistencias posteriormente, como NeRF-In, que combina vistas a través de la pérdida de píxeles, o SPIn-NeRF, que utiliza una pérdida perceptual. Sin embargo, estos enfoques pueden tener dificultades cuando las vistas rellenadas presentan diferencias perceptuales significativas o implican apariencias complejas.

Alternativamente, se han explorado métodos de relleno de referencia única, que evitan inconsistencias de vista al utilizar solo una vista rellenada. Sin embargo, este enfoque introduce varios desafíos, incluida una calidad visual reducida en vistas no de referencia, una falta de efectos dependientes de la vista y problemas con las disocclusiones.

Teniendo en cuenta las limitaciones mencionadas, se ha desarrollado un nuevo enfoque para permitir el relleno de objetos 3D.

Las entradas al sistema son N imágenes desde diferentes perspectivas con sus correspondientes matrices de transformación de cámara y máscaras, que delimitan las regiones no deseadas. Además, se requiere una vista de referencia rellenada relacionada con las imágenes de entrada, que proporciona la información que un usuario espera obtener de un relleno 3D de la escena. Esta referencia puede ser tan simple como una descripción en texto del objeto a reemplazar en la máscara.

https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf

En el ejemplo mencionado anteriormente, las referencias “pato de goma” o “maceta” se pueden obtener utilizando un rellenador condicionado por texto de una sola imagen. De esta manera, cualquier usuario puede controlar y dirigir la generación de escenas 3D con las ediciones deseadas.

Con un módulo centrado en efectos dependientes de la vista (EDV), los autores intentan tener en cuenta los cambios dependientes de la vista (por ejemplo, especularidades y efectos no Lambertianos) en la escena. Por esta razón, añaden EDV al área enmascarada desde puntos de vista no de referencia, corrigiendo los colores de referencia para que coincidan con el contexto circundante de las otras vistas.

Además, introducen estimadores de profundidad monoculares para guiar la geometría de la región rellenada según la profundidad de la imagen de referencia. Dado que no todos los píxeles objetivo enmascarados son visibles en la referencia, se ideó un enfoque para supervisar dichos píxeles sin oclusión mediante rellenos adicionales.

A continuación se muestra una comparación visual de las representaciones de vistas novedosas del método propuesto con SPIn-NeRF-Lama, el estado del arte.

https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf

Este fue el resumen de un nuevo marco de IA para el relleno controlado de campos de radiación neural con referencia. Si estás interesado y deseas obtener más información al respecto, no dudes en consultar los enlaces citados a continuación.