Este artículo de IA propone Blending-NeRF que consiste en NeRF preentrenado y NeRF editable para la edición localizada de objetos 3D impulsada por texto.

Este artículo propone Blending-NeRF, que combina NeRF preentrenado y NeRF editable para la edición de objetos 3D impulsada por texto.

Las industrias, incluyendo la pintura, el diseño de productos y la animación, están siendo significativamente impactadas por la síntesis de imágenes 3D y las tecnologías asociadas. Aunque los nuevos métodos de síntesis de imágenes 3D, como Neural Radiance Field (NeRF), han hecho posible producir contenido 3D a gran escala, todavía es difícil que estos métodos sean ampliamente adoptados ya que dificultan la modificación precisa y local de las formas y colores de los objetos. A pesar de varios intentos recientes de edición de objetos 3D, la manipulación más localizada y granular de los objetos 3D necesita ser mejorada y más asequible. Esto es especialmente cierto al agregar o eliminar elementos específicos de ciertos estilos. Si bien Text2Mesh y TANGO solo permiten alteraciones básicas de textura y forma superficial de objetos 3D completos, intentos anteriores como EditNeRF y NeRFEditing solo ofrecen posibilidades de edición limitadas y no versátiles.

Aunque CLIP-NeRF propone una técnica generativa con NeRF condicional desacoplado para la edición de objetos, editar solo la parte requerida de los objetos localmente es un desafío. Se necesita una cantidad sustancial de datos de entrenamiento para la categoría de edición deseada. También proporcionan un método diferente para modificar la apariencia de los objetos pero no la forma: ajustar finamente un solo NeRF por escena con un objetivo impulsado por CLIP. Es necesario hacer modificaciones estilísticas en áreas específicas del objeto, como cambiar selectivamente el color y agregar y eliminar densidades localmente, como se ilustra en la Figura 1, para lograr una edición localizada efectiva y práctica de objetos 3D mediante indicaciones de texto a gran escala.

Figura 1 muestra los resultados de nuestra estrategia para la manipulación localizada de objetos impulsada por texto. El objeto básico es un bulldozer, y cada modificación se realiza utilizando procedimientos para ajustar el color, aumentar la densidad y restar densidad.

En este artículo, los autores de LG Electronics y la Universidad Nacional de Seúl presentan una técnica de vanguardia para la edición localizada de objetos que permite que las indicaciones de texto modifiquen objetos 3D, proporcionando una edición localizada completa basada en la estilización y la densidad. Consideran que para estilizar completamente formas y colores, confiar en el ajuste fino sencillo de un solo NeRF para generar nuevas densidades cerca de una densidad inicial baja o para modificar densidades existentes a través de un objetivo impulsado por CLIP es insuficiente. En cambio, emplean un método que combina la representación original del objeto 3D con un subconjunto de representaciones volumétricas implícitas parametrizadas y luego utilizan una arquitectura NeRF editable entrenada para producir la imagen mezclada de manera natural. Utilizan un enfoque de visión-lenguaje preentrenado como CLIPSeg para detectar el área que debe ser modificada en el procedimiento de entrada de texto. El método propuesto se basa en una arquitectura NeRF en capas novedosa llamada Blending-NeRF, que comprende un NeRF preentrenado y un NeRF editable.

En ciertos casos, los NeRF se entrenan simultáneamente para recrear elementos estáticos y dinámicos de una escena activa utilizando múltiples NeRF. Sin embargo, su método agrega un NeRF adicional para permitir cambios basados en texto en áreas particulares de una escena estática preentrenada. Estas modificaciones incluyen varios procesos de edición, como ajustes de color, adición de densidad y reducción de densidad. Pueden localizar y modificar con precisión objetos 3D combinando densidad y color de los dos NeRF.

Ofrecen la innovadora arquitectura Blending-NeRF, que combina un NeRF preentrenado con un NeRF editable utilizando una variedad de objetivos y métodos de entrenamiento.

Esta es una visión general de sus contribuciones.

• Con este método, es posible alterar algunos objetos 3D de manera intuitiva manteniendo su apariencia original.

• Agregan nuevas técnicas de mezcla que miden la cantidad de adición de densidad, reducción de densidad y modificación de color. Su enfoque permite apuntar exactamente a regiones específicas para la edición localizada y limita el alcance de la alteración del objeto debido a estos procedimientos de mezcla.

• Realizan varias pruebas que involucran ediciones de objetos 3D guiadas por texto, como modificar la forma y el color. Comparan su método con métodos anteriores y sus expansiones directas, demostrando que Blending-NeRF es cualitativa y cuantitativamente superior.