DINO – Un modelo base para la visión por computadora

Es una década emocionante para la visión por computadora. Grandes éxitos del dominio del lenguaje natural se traslada...

El Hollywood en casa DragNUWA es un modelo de IA que puede lograr la generación de video controlable

La IA generativa ha dado un gran salto en los últimos dos años gracias al exitoso lanzamiento de modelos de difusión ...

Investigadores de la Universidad Nacional de Seúl presentan Locomotion-Action-Manipulation (LAMA) un método revolucionario de IA para el control eficiente y adaptable de robots.

Investigadores de la Universidad Nacional de Seúl abordan un desafío fundamental en la robótica: el control eficiente...

Now You See Me (CME) Extracción de Modelo basada en Conceptos

Del artículo del taller AIMLAI presentado en la conferencia CIKM Now You See Me (CME) Extracción de modelos basada en...

Avanzando en el relleno de imágenes Acortando la brecha entre manipulaciones 2D y 3D con este novedoso relleno de IA para Campos de Radiación Neurales

Ha habido un interés duradero en la manipulación de imágenes debido a su amplio rango de aplicaciones en la creación ...

Meet StableSR Un nuevo enfoque de superresolución de IA que explota el poder de los modelos de difusión pre-entrenados

Se ha observado un progreso significativo en el desarrollo de modelos de difusión para diversas tareas de síntesis de...

Investigadores de Google presentan un nuevo enfoque de inteligencia artificial para modelar una prioridad de espacio de imagen en relación a la dinámica de la escena

Incluso las imágenes aparentemente inmóviles incluyen oscilaciones minúsculas debido a cosas como el viento, las corr...

Amplificando lo invisible Este método de inteligencia artificial AI utiliza NeRFs para visualizar movimientos sutiles en 3D

Vivimos en un mundo lleno de movimiento, desde los movimientos sutiles de nuestros cuerpos hasta los movimientos a gr...

Investigadores del MIT presentan una nueva atención ligera a múltiples escalas para la segmentación semántica en dispositivos

El objetivo de la segmentación semántica, un problema fundamental en la visión por computadora, es clasificar cada pí...

Conoce a Würstchen un modelo de difusión extremadamente rápido y eficiente cuyo componente condicional de texto funciona en un espacio latente altamente comprimido de imágenes.

La generación de imágenes a partir de texto es una tarea desafiante en inteligencia artificial que implica crear imág...

Conoce DiffBIR Un enfoque de IA que aborda el problema de restauración de imágenes ciegas utilizando modelos de difusión preentrenados de texto a imagen.

Con el avance significativo en el campo de la Inteligencia Artificial, los subcampos de la IA, incluyendo el Procesam...

Esta investigación de IA presenta AstroLLaMA un modelo de 7B parámetros ajustado a partir de LLaMA-2 utilizando más de 300K resúmenes de astronomía de ArXiv.

La llegada de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) ha llamado la atención de muchos campo...

Segmentar cualquier cosa Segmentación adaptable de objetos arbitrarios

¡El recorrido de hoy en papel será visual! Analizaremos Segment Anything, un artículo del equipo de investigación de ...

Anotación de imágenes de código cerrado frente a código abierto

Este blog establece una comparación entre las herramientas de anotación de imágenes de código abierto y de código cer...

Investigadores de Microsoft presentan InstructDiffusion un marco de IA unificado y genérico para alinear tareas de visión por computadora con instrucciones humanas.

En un avance revolucionario hacia modelos de visión adaptables y generalistas, investigadores de Microsoft Research A...

Ayudando a los modelos de visión por computadora y lenguaje a entender lo que ven

Los investigadores utilizan datos sintéticos para mejorar la capacidad de un modelo de entender información conceptua...

Investigadores de Baidu AI presentan VideoGen un nuevo enfoque de generación de texto a video que puede generar videos de alta definición con alta fidelidad de fotogramas.

Los sistemas de generación de texto a imagen (T2I), como DALL-E2, Imagen, Cogview, Latent Diffusion y otros, han avan...

El modelo de IA acelera la visión por computadora de alta resolución

El sistema podría mejorar la calidad de imagen en la transmisión de video o ayudar a los vehículos autónomos a identi...

Guíame a través del tiempo SceNeRFlow es un método de IA que genera NeRFs consistentes en el tiempo

Los Neural Radiance Fields (NeRF) surgieron como un concepto transformador en el dominio 3D recientemente. Ha remodel...

Investigadores de Cornell y Tel Aviv presentan Doppelgangers Aprendiendo a Desambiguar Imágenes de Estructuras Similares

Mira las imágenes de arriba. ¿Puedes notar la diferencia? Es como tratar de diferenciar entre gemelos. ¿Quizás uno ti...

¿Cómo podemos medir la incertidumbre en los campos de radiación neuronal? Presentamos BayesRays un revolucionario marco post hoc para NeRFs.

Crear modelos 3D proporciona una representación más inmersiva y realista de escenas que las imágenes 2D. Permiten a l...