ByteDance AI Research propone un nuevo marco de aprendizaje auto-supervisado para crear avatares estilizados en 3D de alta calidad con una mezcla de parámetros continuos y discretos
ByteDance AI Research propone un nuevo marco de aprendizaje auto-supervisado para crear avatares estilizados en 3D de alta calidad.
Un punto de entrada clave al mundo digital, que es más prevalente en la vida moderna para socializar, comprar, jugar y otras actividades, es un avatar en 3D visualmente atractivo y animado. Un avatar decente debe ser atractivo y personalizado para que coincida con la apariencia del usuario. Muchos sistemas de avatar conocidos, como Zepeto1 y ReadyPlayer2, emplean apariencias caricaturizadas y estilizadas porque son divertidas y fáciles de usar. Sin embargo, elegir y modificar un avatar manualmente generalmente implica modificaciones minuciosas de muchos elementos gráficos, lo cual es tanto demorado como desafiante para usuarios novatos. En esta investigación, se investiga la generación automatizada de avatares en 3D con estilo a partir de una única selfie tomada de frente.
Específicamente, dado una imagen de selfie, su algoritmo predice un vector de avatar como la configuración completa para que un motor gráfico genere un avatar en 3D y renderice imágenes de avatar a partir de activos 3D predefinidos. El vector de avatar consta de parámetros específicos de los activos predefinidos, que pueden ser continuos (por ejemplo, longitud de la cabeza) o discretos (por ejemplo, tipos de cabello). Una solución ingenua es etiquetar un conjunto de imágenes de selfies y entrenar un modelo para predecir el vector de avatar a través de aprendizaje supervisado. Sin embargo, se necesitan anotaciones a gran escala para manejar una amplia gama de activos (generalmente cientos). Se sugieren enfoques de auto-supervisión para entrenar un imitador diferenciable que replica las representaciones del motor gráfico para coincidir automáticamente la imagen de avatar producida con la imagen de selfie utilizando diferentes pérdidas de identificación y segmentación semántica, lo que reduciría el costo de las anotaciones.
Para ser más precisos, dada una fotografía de selfie, su sistema pronostica un vector de avatar como la configuración completa para que un motor gráfico produzca un avatar en 3D y renderice imágenes de avatar a partir de activos 3D especificados. Las características que componen el vector de avatar son específicas de los activos predefinidos y pueden ser continuas (como la longitud de la cabeza) o discretas (por ejemplo, tipos de cabello). Un método simple es etiquetar una colección de selfies y utilizar el aprendizaje supervisado para construir un modelo que prediga el vector de avatar. Sin embargo, se requieren anotaciones a gran escala para manejar una amplia variedad de activos (generalmente cientos).
La Conversión del Vector de Avatar, la Parametrización del Avatar Auto-supervisada y la Estilización del Retrato son los tres pasos de su arquitectura innovadora. Según la Fig. 1, la información de identificación (peinado, tono de piel, gafas, etc.) se mantiene a lo largo del proceso, mientras que la brecha de dominio se cierra gradualmente a lo largo de las tres etapas. La etapa de Estilización del Retrato se centra primero en el cruce de dominio de la apariencia visual de 2D real a estilizada. Este paso mantiene el espacio de imagen al tiempo que produce la selfie de entrada como un avatar estilizado. Un uso rudimentario de las técnicas actuales de estilización para la traducción mantendrá elementos como la expresión, lo cual complicaría de manera obvia las fases posteriores del proceso.
- Meta AI presenta IMAGEBIND El primer proyecto de IA de código abier...
- Un nuevo marco teórico de IA para analizar y limitar la fuga de inf...
- PaLM AI | IA Generativa de creación propia de Google
Como resultado, desarrollaron una versión modificada de AgileGAN para garantizar la homogeneidad de la expresión al tiempo que se mantiene la identificación del usuario. El paso de Parametrización del Avatar Auto-supervisada se ocupa luego de la transición de la imagen basada en píxeles al avatar basado en vectores. Descubrieron que la imposición fuerte de la discreción de los parámetros evita que la optimización logre un comportamiento convergente. Adoptan una formulación indulgente conocida como un vector de avatar relajado para superar este problema, codificando los parámetros discretos como vectores continuos one-hot. Enseñaron a un imitador a comportarse como el motor no diferenciable para permitir la diferenciabilidad en el entrenamiento. Todos los parámetros discretos se convierten en vectores one-hot en el paso de Conversión del Vector de Avatar. El dominio se cruza desde el espacio de vector de avatar relajado al espacio de vector de avatar estricto. El motor gráfico puede entonces construir los avatares finales y renderizarlos utilizando el vector de avatar estricto. Utilizan una técnica de búsqueda única que produce resultados superiores a la cuantización directa. Emplean investigaciones de preferencia humana para evaluar sus hallazgos y comparar los resultados con enfoques de referencia como F2P y producción manual para ver qué tan efectivamente su método protege la singularidad personal. Sus resultados obtienen puntajes sustancialmente mayores que las técnicas de referencia y bastante similares a los de la creación manual.
También proporcionan un estudio de ablación para respaldar las decisiones de diseño de su canalización. Sus contribuciones técnicas incluyen, en resumen, lo siguiente:
• Un marco novedoso de aprendizaje auto-supervisado para producir avatares 3D estilizados de alta calidad con una combinación de parámetros continuos y discretos
• Un método novedoso para cerrar la brecha sustancial del dominio de estilo en la creación de avatares 3D estilizados utilizando estilización de retratos
• Una canalización de relajación y búsqueda en cascada para abordar el problema de convergencia en la optimización de parámetros de avatar discretos.
Puedes encontrar una demostración en video del artículo en su sitio.