Con una capacidad inédita para simular entornos dinámicos y coherentes en 720p y 24 fps, Genie 3 marca un nuevo hito en la evolución de los modelos de mundo. Para DeepMind, este avance es clave en el camino hacia la IA general (AGI).
Google DeepMind dio a conocer esta semana Genie 3, un modelo de inteligencia artificial diseñado para generar entornos interactivos en tiempo real a partir de texto. Este nuevo desarrollo representa la tercera iteración de su línea de “world models” y ofrece una experiencia visual en 720p a 24 cuadros por segundo, con una consistencia ambiental que se mantiene durante varios minutos.
“Genie 3 es nuestro primer modelo de mundo que permite la interacción en tiempo real, al mismo tiempo que mejora la consistencia y el realismo respecto a Genie 2”, destacaron desde DeepMind.
La innovación técnica detrás de este avance permite que los usuarios exploren mundos digitales con comportamientos físicos naturales, elementos históricos o escenarios de ficción generados dinámicamente, todo en respuesta a simples instrucciones de texto.
Qué es un «world model» y por qué importa
Los modelos de mundo son sistemas de inteligencia artificial capaces de simular cómo evoluciona un entorno y cómo afectan las acciones de los agentes dentro de él. Según DeepMind, estos modelos son “un paso clave hacia la AGI”, ya que permiten entrenar agentes de IA en currículums ilimitados dentro de simulaciones complejas.
A diferencia de técnicas como NeRFs o Gaussian Splatting, que requieren representaciones 3D explícitas, Genie 3 genera cada fotograma de forma auto-regresiva, basándose en la descripción textual del mundo y las acciones del usuario. Esta arquitectura permite una mayor dinamismo y diversidad en los entornos, pero también plantea desafíos computacionales.
“Para lograr interactividad en tiempo real, el modelo debe realizar cálculos múltiples veces por segundo en respuesta a las nuevas entradas del usuario”, explicaron desde la compañía. Un ejemplo citado es cuando un usuario regresa a una ubicación tras un minuto: el sistema debe recuperar información visual y coherente generada anteriormente.
Lo que puede hacer Genie 3
Entre las capacidades más destacadas del modelo se incluyen:
- Modelado físico realista: simula fenómenos naturales como el agua, la iluminación y las interacciones entre elementos del entorno.
- Generación de ecosistemas naturales: desde comportamientos animales hasta vegetación compleja.
- Creación de escenarios fantásticos o animados: con personajes expresivos y mundos imaginarios.
- Exploración de locaciones históricas o geográficas: permitiendo viajar en el tiempo o el espacio mediante instrucciones de texto.
- Eventos mundiales activados por texto (promptable world events): que permiten modificar las condiciones climáticas o introducir personajes y objetos en el entorno generado.
Esta última función amplía el abanico de posibilidades para simular escenarios contrafactuales o de entrenamiento, fundamentales para el aprendizaje por experiencia de agentes autónomos.
Implicancias y próximos pasos
La capacidad de mantener consistencia visual durante varios minutos representa un logro técnico significativo, ya que los errores tienden a acumularse en modelos auto-regresivos. En Genie 3, la memoria visual se extiende hasta un minuto atrás, algo que no se había logrado con esta precisión en versiones anteriores.
Con esta evolución, Google DeepMind no solo continúa su liderazgo en la generación de video e IA generativa, sino que sienta las bases para futuros sistemas que podrían entrenarse exclusivamente dentro de mundos simulados, acelerando así el desarrollo de inteligencia artificial general sin necesidad de intervención humana directa o datasets del mundo real.
Genie 3 propone una nueva frontera para la IA: crear mundos vivos, coherentes y adaptativos en tiempo real, que no solo entretienen o visualizan, sino que enseñan, predicen y evolucionan.