Investigadores de ByteDance y CMU presentan AvatarVerse una nueva tubería de IA para generar avatares 3D de alta calidad controlados tanto por descripciones de texto como por guía de postura.
Investigadores de ByteDance y CMU presentan AvatarVerse, una tubería de IA para generar avatares 3D de alta calidad controlados por texto y guía de postura.
Los avatares 3D tienen un uso extenso en industrias como el desarrollo de juegos, las redes sociales y la comunicación, la realidad aumentada y virtual y la interacción humano-computadora. La construcción de avatares 3D de alta calidad ha despertado mucho interés. Estos modelos 3D complejos se construyen tradicionalmente de forma manual, lo cual es un procedimiento laborioso y que consume mucho tiempo, y requiere miles de horas de artistas capacitados con amplios conocimientos estéticos y de modelado 3D. Como resultado, el objetivo de su trabajo es automatizar la creación de avatares 3D de alta calidad utilizando únicamente descripciones en lenguaje natural, ya que esto tiene un gran potencial de investigación y la capacidad de conservar recursos.
La reconstrucción de avatares 3D de alta fidelidad a partir de películas de múltiples vistas o fotos de referencia ha generado mucha atención recientemente. Estas técnicas no pueden construir avatares imaginativos con indicaciones de texto complicadas, ya que se basan en suposiciones visuales restrictivas obtenidas de películas o imágenes de referencia. Los modelos de difusión muestran una impresionante creatividad al crear imágenes en 2D, principalmente porque hay disponibles muchas combinaciones de texto-imagen a gran escala. Sin embargo, la falta de diversidad y la escasez de modelos 3D dificultan el entrenamiento adecuado de un modelo de difusión 3D.
Investigaciones recientes han analizado la optimización de Neural Radiance Fields para producir modelos 3D de alta fidelidad utilizando modelos generativos de texto-imagen pre-entrenados. Sin embargo, crear avatares 3D sólidos con diversas posiciones, apariencias y formas sigue siendo un desafío. Por ejemplo, el uso de muestreo de destilación de puntaje común sin un control adicional para dirigir la optimización de NeRF probablemente introducirá el problema de Janus. Además de eso, los avatares creados por los métodos actuales frecuentemente muestran aspereza y borrosidad observables, lo que resulta en la falta de detalles de texturas locales de alta resolución, accesorios y otros aspectos importantes.
Investigadores de ByteDance y CMU sugieren AvatarVerse, un marco único diseñado para producir avatares 3D de alta calidad y confiables utilizando descripciones textuales y guías de posición, para abordar estas limitaciones. Inicialmente entrenan un nuevo ControlNet utilizando 800K o más imágenes humanas DensePose. Luego, sobre el ControlNet, se implementa una pérdida de SDS condicionada a la señal de DensePose 2D. Esto les permite lograr una correspondencia exacta de vista entre cada vista 2D y el espacio 3D, y entre muchas vistas 2D. Su tecnología elimina el problema de Janus que afecta a la mayoría de los enfoques anteriores, al tiempo que permite el control de postura de los avatares creados. Como resultado, garantiza un procedimiento de generación de avatares más confiable y consistente. Los avatares producidos también pueden estar bien alineados con las articulaciones del modelo SMPL gracias a las señales de supervisión precisas y adaptables ofrecidas por DensePose, lo que facilita y eficientiza la unión y el control esquelético.
- Conoce a AgentBench Un banco de pruebas multidimensional que ha sid...
- Añadiendo relleno a los modelos de lenguaje grandes ejemplos con Ll...
- 5 Mejores LLM de código abierto
Presentan una técnica de generación progresiva de alta resolución para mejorar el realismo y los detalles de la geometría local, ya que simplemente confiar en el ControlNet condicionado por DensePose puede producir artefactos locales. Utilizan una pérdida de suavidad, que regulariza el proceso de síntesis al promover un gradiente más suave de la cuadrícula de voxel de densidad en sus Campos de Radiación Neural explícitos computacionalmente efectivos para reducir la aspereza del avatar creado.
Estas son las contribuciones generales:
• Presentan AvatarVerse, una técnica que permite crear automáticamente un avatar 3D de alta calidad utilizando solo una descripción en palabras y una postura humana de referencia.
• Proporcionan la Pérdida de Muestreo de Destilación de Puntaje Condicionada por DensePose, un método que facilita la creación de avatares 3D conscientes de la postura y mitiga con éxito el problema de Janus, mejorando la estabilidad del sistema.
• Mediante un proceso sistemático de generación de alta resolución, mejoran la calidad de los avatares 3D generados. Esta tecnología crea avatares 3D con detalles excepcionales, incluyendo manos, accesorios y más, a través de un riguroso proceso de refinamiento de grueso a fino.
• AvatarVerse funciona admirablemente, superando a competidores en calidad y estabilidad. La superioridad de AvatarVerse en la creación de avatares 3D de alta fidelidad se demuestra mediante evaluaciones cualitativas meticulosas respaldadas por una investigación exhaustiva de usuarios.
Esto establece un nuevo estándar para la generación de avatares 3D confiables sin necesidad de entrenamiento, de la más alta calidad. Han puesto demos de su técnica en su sitio web de GitHub.