Del 2D al 4D-GS. El desafío de representar y renderizar escenas dinámicas.
4DV AI de China acaba de lanzar una herramienta que convierte los vídeos 2D normales en experiencias 4D completas. Puedes tomar un vídeo plano y mover la cámara en el espacio 3D, acercar o salir, e incluso escuchar cómo cambia el sonido dependiendo de tu posición. Es como entrar en el vídeo y verlo desde cualquier ángulo.
La tecnología detrás se llama 4D Gaussian Splatting. Funciona mapeando píxeles de cada marco de vídeo en un entorno 3D usando pequeños puntos de datos llamados Gaussians. Estos puntos son capas a lo largo del tiempo para crear una escena completa que exista tanto en el espacio como en el tiempo. Eso es lo que lo hace 4D.
Representar y renderizar escenas dinámicas ha sido una tarea importante y un gran desafío, especialmente, para modelar con precisión movimientos complejos, la alta eficiencia suele ser difícil de garantizar.
Para lograr una representación dinámica de escenas en tiempo real y al mismo tiempo disfrutar de una alta eficiencia de entrenamiento y almacenamiento, los expertos proponen 4D Gaussian Splatting (4D-GS) como una representación holística para escenas dinámicas en lugar de aplicar 3D-GS para cada fotograma individual.
En 4D-GS, se muestra una nueva representación explícita que contiene tanto gausianos 3D como vóxeles neuronales 4D. Se propone un algoritmo de codificación de vóxeles neuronales descompuestos inspirado en HexPlane para construir de manera eficiente características gausianas a partir de vóxeles neuronales 4D y luego se aplica un MLP ligero para predecir las deformaciones gausianas en nuevas marcas de tiempo.
El método 4D-GS logra una representación en tiempo real bajo altas resoluciones, 82 FPS a una resolución de 800 X 800 en una GPU RTX 3090, manteniendo una calidad comparable o mejor que los métodos anteriores de vanguardia.
Fuente: https://guanjunwu.github.io/4dgs/
+++++++