Este artículo de IA propone MATLABER un nuevo autoencoder latente de BRDF para la generación de texto a 3D consciente del material.

Este artículo propone MATLABER, un nuevo autoencoder latente de BRDF para la generación de texto a 3D consciente del material.

El desarrollo de activos 3D es esencial para muchas aplicaciones comerciales, incluyendo juegos, cine y AR/VR. El proceso tradicional de desarrollo de activos 3D requiere varios pasos que consumen mucho tiempo y trabajo, todos los cuales dependen de conocimientos especializados y entrenamiento estético formal. Los avances recientes en calidad y eficiencia de generación, así como su potencial para reducir significativamente el tiempo y las habilidades requeridas para la creación tradicional de activos 3D, han llamado cada vez más la atención sobre los procesos de texto a 3D que generan automáticamente activos 3D a partir de descripciones puramente textuales.

Estos procesos de texto a 3D pueden proporcionar geometría y apariencia atractiva al optimizar gradualmente el activo 3D objetivo expresado como NeRF o DMTET a través de la pérdida de SDS. La Figura 1 ilustra lo difícil que es para ellos restaurar materiales de objetos de alta fidelidad, lo que limita severamente su uso en aplicaciones del mundo real como la relightización. Aunque se han realizado intentos de modelar la función de distribución bidireccional de reflectancia (BRDF) y la reflectancia lambertiana en sus diseños, la red neuronal encargada de predecir materiales carece de la motivación y las señales necesarias para identificar un material apropiado que cumpla con la distribución natural, especialmente en condiciones de luz fija donde su material indicado se entrelaza frecuentemente con las luces del entorno.

En este estudio, los investigadores del Shanghai AI Laboratory y S – Lab, de la Universidad Tecnológica de Nanyang, utilizan datos de materiales ricos que ya están disponibles para aprender un proceso único de texto a 3D que separa con éxito el material de la iluminación ambiental. Existen conjuntos de datos de materiales BRDF a gran escala como MERL BRDF, materiales Adobe Substance3D y las colecciones de BRDF del mundo real TwoShotBRDF, a pesar de la inaccesibilidad de conjuntos de datos acoplados de materiales y descripciones de texto. Como resultado, sugieren Material-Aware Text-to-3D through LAtent BRDF auto EncodeR (MATLABER), que utiliza un nuevo autoencoder latente BRDF para crear materiales realistas y de aspecto natural que coinciden precisamente con las indicaciones de texto.

Para que MATLABER pueda predecir los códigos latentes BRDF en lugar de los valores BRDF, se entrena al autoencoder latente BRDF para incorporar prioridades BRDF del mundo real de TwoShotBRDF en su espacio latente suave. Esto permite que MATLABER se concentre más en seleccionar el material más apropiado y se preocupe menos por la validez del BRDF proyectado. Su método garantiza el realismo y la coherencia de los materiales del objeto y logra el desacoplamiento óptimo de la geometría y la apariencia gracias al espacio latente suave del autoencoder BRDF. Su método puede producir activos 3D con contenido de alta fidelidad, superando a los procesos de texto a 3D del estado del arte anteriores, como se ilustra en la Figura 1.

Figura 1: El objetivo de la generación de texto a 3D es crear objetos 3D de alta calidad que correspondan a descripciones de texto proporcionadas. A pesar de las imágenes llamativas, las técnicas representativas como DreamFusion y Fantasia3D siguen sin poder recuperar materiales de objetos de alta fidelidad. Específicamente, Fantasia3D pronostica materiales BRDF entrelazados con iluminación ambiental, mientras que DreamFusion solo tiene en cuenta materiales difusos. El método, que se basa en un autoencoder latente BRDF, puede producir materiales orgánicos para objetos 3D, permitiendo representaciones realistas bajo diversas condiciones de iluminación.

Más crucialmente, una estimación precisa de los materiales del objeto permite actividades como la modificación de escenas, la edición de materiales y la relightización que antes eran difíciles de realizar. Varias aplicaciones del mundo real notan que estas tareas subsecuentes son esenciales, abriendo la puerta a un paradigma más práctico de generación de contenido 3D. Además, su algoritmo puede inferir información táctil y sonora de los materiales adquiridos, que juntos conforman la trinidad del material para cosas virtuales, utilizando conjuntos de datos multimodales como ObjectFolder.