La genial Fei-Fei Li explora la próxima frontera de la IA: la inteligencia espacial. Desde la creatividad y la robótica hasta la ciencia y la atención médica, detalla cómo los «modelos del mundo» transformarán nuestra interacción con lo real y lo virtual, acercándonos a máquinas verdaderamente inteligentes que potencian las capacidades humanas. Una visión inspirada por la pregunta de Alan Turing que sigue guiando el futuro de la tecnología.
En 1950, cuando la informática se limitaba a la aritmética automatizada y la lógica simple, Alan Turing formuló una pregunta que aún resuena hoy: ¿pueden pensar las máquinas? Se requirió una imaginación extraordinaria para vislumbrar lo que él vislumbró: que la inteligencia algún día podría construirse en lugar de nacer. Esta intuición impulsó posteriormente una incansable búsqueda científica conocida como Inteligencia Artificial (IA). Veinticinco años después de iniciar mi carrera en IA, sigo sintiéndome inspirado por la visión de Turing. Pero ¿cuán cerca estamos? La respuesta no es sencilla.
Hoy en día, tecnologías punteras de IA, como los grandes modelos de lenguaje (LLM), han comenzado a transformar nuestra forma de acceder al conocimiento abstracto y trabajar con él. Sin embargo, siguen siendo como escritores en la oscuridad: elocuentes pero inexpertos, conocedores pero sin fundamento. La inteligencia espacial transformará nuestra manera de crear e interactuar con los mundos reales y virtuales, revolucionando la narrativa, la creatividad, la robótica, el descubrimiento científico y mucho más. Esta es la próxima frontera de la IA.
La búsqueda de la inteligencia visual y espacial ha sido mi guía desde que inicié este campo. Por eso dediqué años a desarrollar ImageNet, el primer conjunto de datos a gran escala para el aprendizaje y la evaluación comparativa visual, y uno de los tres elementos clave que permitieron el nacimiento de la IA moderna, junto con los algoritmos de redes neuronales y la computación moderna, como las unidades de procesamiento gráfico (GPU). Por eso, mi laboratorio académico en Stanford ha dedicado la última década a combinar la visión artificial con el aprendizaje robótico. Y por eso, mis cofundadores Justin Johnson, Christoph Lassner, Ben Mildenhall y yo creamos World Labs hace más de un año: para hacer realidad esta posibilidad por completo, por primera vez.
En este ensayo, explicaré qué es la inteligencia espacial, por qué es importante y cómo estamos construyendo los modelos del mundo que la desbloquearán, con un impacto que transformará la creatividad, la inteligencia corporal y el progreso humano.
Inteligencia espacial: El andamiaje de la cognición humana
La IA nunca ha sido tan fascinante. Los modelos de IA generativa, como los LLM, han pasado de los laboratorios de investigación a la vida cotidiana, convirtiéndose en herramientas de creatividad, productividad y comunicación para miles de millones de personas. Han demostrado capacidades que antes se creían imposibles, produciendo con facilidad texto coherente, grandes cantidades de código, imágenes fotorrealistas e incluso breves videoclips. Ya no se trata de si la IA cambiará el mundo. Según cualquier definición razonable, ya lo ha hecho.
Sin embargo, aún queda mucho por hacer. La visión de robots autónomos sigue siendo fascinante, pero especulativa, lejos de convertirse en algo cotidiano, tal como los futuristas llevan tiempo prometiendo. El sueño de una investigación enormemente acelerada en campos como el tratamiento de enfermedades, el descubrimiento de nuevos materiales y la física de partículas sigue en gran medida sin cumplirse. Y la promesa de una IA que realmente comprenda y potencie a los creadores humanos —ya sean estudiantes que aprenden conceptos complejos de química molecular, arquitectos que visualizan espacios, cineastas que construyen mundos o cualquier persona que busque experiencias virtuales totalmente inmersivas— sigue estando fuera de nuestro alcance.
Para comprender por qué estas capacidades siguen siendo esquivas, necesitamos examinar cómo evolucionó la inteligencia espacial y cómo moldea nuestra comprensión del mundo.
La visión ha sido durante mucho tiempo un pilar de la inteligencia humana, pero su poder surgió de algo aún más fundamental. Mucho antes de que los animales pudieran anidar, cuidar a sus crías, comunicarse mediante el lenguaje o construir civilizaciones, el simple acto de percibir silenciosamente desencadenó un viaje evolutivo hacia la inteligencia.
Esta capacidad, aparentemente aislada, de obtener información del mundo exterior, ya fuera un destello de luz o la sensación de una textura, creó un vínculo entre la percepción y la supervivencia que se fortaleció y se volvió más complejo con el paso de las generaciones. De ese vínculo surgieron capas y capas de neuronas, formando sistemas nerviosos que interpretan el mundo y coordinan las interacciones entre un organismo y su entorno. Por ello, muchos científicos han conjeturado que la percepción y la acción se convirtieron en el ciclo central que impulsó la evolución de la inteligencia , y en la base sobre la que la naturaleza creó nuestra especie: la máxima expresión de percibir, aprender, pensar y actuar.
La inteligencia espacial desempeña un papel fundamental en cómo interactuamos con el mundo físico. A diario, la utilizamos para las acciones más cotidianas: aparcar el coche imaginando cómo se estrecha el espacio entre el parachoques y el bordillo, atrapar unas llaves lanzadas al otro lado de la habitación, cruzar una acera abarrotada sin chocar o servir café en una taza con sueño sin mirar. En situaciones más extremas, los bomberos se desplazan entre edificios en llamas a través del humo, tomando decisiones en fracciones de segundo sobre la estabilidad y la supervivencia, comunicándose mediante gestos, lenguaje corporal y un instinto profesional compartido para el que no existe sustituto lingüístico. Y los niños pasan la totalidad de sus meses o años preverbales aprendiendo el mundo a través de la interacción lúdica con su entorno. Todo esto sucede de forma intuitiva y automática: una fluidez que las máquinas aún no han alcanzado.
La inteligencia espacial es fundamental para nuestra imaginación y creatividad. Los narradores crean mundos únicos y ricos en su mente y utilizan diversas formas de medios visuales para compartirlos con los demás, desde las pinturas rupestres antiguas hasta el cine moderno y los videojuegos inmersivos. Ya sea que se trate de niños construyendo castillos de arena en la playa o jugando Minecraft en la computadora, la imaginación con base espacial constituye la base de las experiencias interactivas en mundos reales o virtuales. Y en muchas aplicaciones industriales, las simulaciones de objetos, escenas y entornos interactivos dinámicos impulsan innumerables casos de uso empresarial críticos, desde el diseño industrial hasta los gemelos digitales y el entrenamiento robótico.
La historia está repleta de momentos cruciales para la civilización en los que la inteligencia espacial desempeñó un papel central. En la antigua Grecia, Eratóstenes transformó las sombras en geometría —midiendo un ángulo de 7 grados en Alejandría en el preciso instante en que el sol no proyectaba sombra en Siena— para calcular la circunferencia de la Tierra. La «Spinning Jenny» de Hargreave revolucionó la fabricación textil gracias a una idea espacial: al disponer varios husos uno al lado del otro en un solo bastidor, un trabajador podía hilar varios hilos simultáneamente, multiplicando la productividad por ocho. Watson y Crick descubrieron la estructura del ADN construyendo físicamente modelos moleculares tridimensionales, manipulando placas de metal y alambre hasta que la disposición espacial de los pares de bases encajó a la perfección. En ambos casos, la inteligencia espacial impulsó el progreso de la civilización cuando científicos e inventores tuvieron que manipular objetos, visualizar estructuras y razonar sobre espacios físicos; capacidades que no pueden plasmarse únicamente en texto.
La inteligencia espacial es el andamiaje sobre el que se construye nuestra cognición. Está presente cuando observamos pasivamente o cuando buscamos crear activamente. Impulsa nuestro razonamiento y planificación, incluso en los temas más abstractos. Y es esencial para la forma en que interactuamos —verbal o físicamente— con nuestros semejantes o con el entorno mismo. Si bien la mayoría de nosotros no desvelamos nuevas verdades al nivel de Eratóstenes casi a diario, solemos pensar de la misma manera: comprendemos un mundo complejo al percibirlo a través de nuestros sentidos y, a partir de ahí, aprovechamos una comprensión intuitiva de cómo funciona en términos físicos y espaciales.
Lamentablemente, la IA actual aún no piensa así. Sin embargo, se han logrado avances extraordinarios en los últimos años. Los modelos de aprendizaje multimodal (MLLM), entrenados con grandes volúmenes de datos multimedia además de datos textuales, han introducido algunos conceptos básicos de percepción espacial, y la IA actual puede analizar imágenes, responder preguntas sobre ellas y generar imágenes hiperrealistas y vídeos cortos. Además, gracias a los avances en sensores y tecnología háptica, nuestros robots más avanzados pueden empezar a manipular objetos y herramientas en entornos muy restringidos.
Sin embargo, la cruda realidad es que las capacidades espaciales de la IA aún distan mucho del nivel humano. Y sus limitaciones se hacen evidentes rápidamente. Los modelos de aprendizaje automático de última generación rara vez superan el azar en la estimación de distancia, orientación y tamaño, o en la rotación mental de objetos regenerándolos desde nuevos ángulos. No pueden navegar laberintos, reconocer atajos ni predecir leyes físicas básicas. Los vídeos generados por IA —una tecnología incipiente y, sin duda, muy interesante— suelen perder coherencia tras unos segundos.
Si bien la IA de última generación actual destaca en la lectura, escritura, investigación y reconocimiento de patrones en datos, estos mismos modelos presentan limitaciones fundamentales al representar o interactuar con el mundo físico. Nuestra visión del mundo es holística: no solo comprendemos lo que vemos, sino cómo se relaciona todo espacialmente, su significado y su importancia. Entender esto mediante la imaginación, el razonamiento, la creación y la interacción —no solo mediante descripciones— es el poder de la inteligencia espacial. Sin ella, la IA se desconecta de la realidad física que pretende comprender. No puede conducir nuestros coches con eficacia, guiar robots en nuestros hogares y hospitales, posibilitar experiencias inmersivas e interactivas completamente nuevas para el aprendizaje y el ocio, ni acelerar los descubrimientos en ciencia de materiales y medicina.
El filósofo Wittgenstein escribió que «los límites de mi lenguaje son los límites de mi mundo». No soy filósofo, pero sé que, al menos en el caso de la IA, hay algo más que palabras. La inteligencia espacial representa la frontera que trasciende el lenguaje: la capacidad que vincula la imaginación, la percepción y la acción, y que abre la posibilidad de que las máquinas mejoren la vida humana, desde la atención médica hasta la creatividad, desde el descubrimiento científico hasta la asistencia cotidiana.
La próxima década de la IA: Construyendo máquinas verdaderamente inteligentes desde el punto de vista espacial.
¿Cómo construimos entonces una IA con inteligencia espacial? ¿Cuál es el camino hacia modelos capaces de razonar con la visión de Eratóstenes, diseñar con la precisión de un diseñador industrial, crear con la imaginación de un narrador e interactuar con su entorno con la fluidez de un socorrista?
Construir una IA con inteligencia espacial requiere algo aún más ambicioso que los modelos de aprendizaje automático (LLM): modelos del mundo, un nuevo tipo de modelos generativos cuyas capacidades de comprensión, razonamiento, generación e interacción con mundos semántica, física, geométrica y dinámicamente complejos —virtuales o reales— superan con creces las capacidades de los LLM actuales. El campo es incipiente, y los métodos actuales abarcan desde modelos de razonamiento abstracto hasta sistemas de generación de vídeo. World Labs se fundó a principios de 2024 con la convicción de que los enfoques fundamentales aún se están estableciendo, lo que convierte a este enfoque en el desafío clave de la próxima década.
En este campo emergente, lo más importante es establecer los principios que guíen el desarrollo. Para la inteligencia espacial, defino los modelos del mundo a través de tres capacidades esenciales:
1. Generativo: Los modelos del mundo pueden generar mundos con coherencia perceptual, geométrica y física.
Los modelos del mundo que permiten comprender y razonar espacialmente también deben generar mundos simulados propios. Deben ser capaces de crear mundos simulados infinitamente variados y diversos que sigan instrucciones semánticas o perceptivas, manteniendo la coherencia geométrica, física y dinámica, ya representen espacios reales o virtuales. La comunidad investigadora explora activamente si estos mundos deben representarse de forma implícita o explícita en términos de las estructuras geométricas inherentes. Además, considero que, junto con potentes representaciones latentes, los resultados de un modelo universal del mundo deben permitir la generación de un estado explícito y observable para diversos casos de uso. En particular, su comprensión del presente debe estar coherentemente ligada a su pasado; a los estados previos del mundo que condujeron al actual.
2. Multimodal: Los modelos del mundo son multimodales por diseño.
Al igual que los animales y los humanos, un modelo del mundo debería ser capaz de procesar entradas —conocidas como «indicaciones» en el ámbito de la IA generativa— en una amplia variedad de formatos. Con información parcial —ya sean imágenes, vídeos, mapas de profundidad, instrucciones de texto, gestos o acciones—, los modelos del mundo deberían predecir o generar estados del mundo con la mayor precisión posible. Esto requiere procesar las entradas visuales con la fidelidad de la visión real e interpretar las instrucciones semánticas con igual facilidad. De este modo, tanto los agentes como los humanos pueden comunicarse con el modelo sobre el mundo a través de diversas entradas y recibir diversas respuestas.
3. Interactivo: Los modelos del mundo pueden generar los siguientes estados en función de las acciones de entrada.
Finalmente, si las acciones o los objetivos forman parte de la instrucción a un modelo del mundo, sus salidas deben incluir el siguiente estado del mundo, representado de forma implícita o explícita. Cuando se le proporciona únicamente una acción, con o sin un estado objetivo, como entrada, el modelo del mundo debe generar una salida coherente con el estado anterior del mundo, el estado objetivo previsto (si lo hubiera) y sus significados semánticos, leyes físicas y comportamientos dinámicos. A medida que los modelos del mundo con inteligencia espacial se vuelven más potentes y robustos en sus capacidades de razonamiento y generación, es concebible que, para un objetivo dado, los propios modelos del mundo puedan predecir no solo el siguiente estado del mundo, sino también las siguientes acciones en función del nuevo estado.
La magnitud de este desafío supera cualquier cosa a la que se haya enfrentado la IA hasta ahora.
Si bien el lenguaje es un fenómeno puramente generativo de la cognición humana, los mundos se rigen por reglas mucho más complejas. Aquí en la Tierra, por ejemplo, la gravedad gobierna el movimiento, las estructuras atómicas determinan cómo la luz produce colores y brillo, e innumerables leyes físicas condicionan cada interacción. Incluso los mundos más fantásticos y creativos se componen de objetos y agentes espaciales que obedecen las leyes físicas y los comportamientos dinámicos que los definen. Conciliar todo esto de forma coherente —lo semántico, lo geométrico, lo dinámico y lo físico— exige enfoques completamente nuevos. La dimensionalidad de representar un mundo es mucho más compleja que la de una señal unidimensional y secuencial como el lenguaje. Lograr modelos del mundo que ofrezcan el tipo de capacidades universales de las que disfrutamos como humanos requerirá superar varias barreras técnicas formidables. En World Labs, nuestros equipos de investigación se dedican a realizar avances fundamentales hacia ese objetivo.
Aquí tenéis algunos ejemplos de nuestros temas de investigación actuales:
- Una nueva función de tarea universal para el entrenamiento: Definir una función de tarea universal tan simple y elegante como la predicción del siguiente token en los modelos lineales de aprendizaje (LLM) ha sido durante mucho tiempo un objetivo central de la investigación en modelos del mundo. La complejidad de sus espacios de entrada y salida dificulta inherentemente la formulación de dicha función. Si bien aún queda mucho por explorar, esta función objetivo y sus representaciones correspondientes deben reflejar las leyes de la geometría y la física, respetando la naturaleza fundamental de los modelos del mundo como representaciones fundamentadas tanto de la imaginación como de la realidad.
- Datos de entrenamiento a gran escala : El entrenamiento de modelos del mundo real requiere datos mucho más complejos que la curación de textos. La buena noticia es que ya existen fuentes de datos masivas. Las colecciones de imágenes y vídeos a escala de internet representan un material de entrenamiento abundante y accesible; el reto reside en desarrollar algoritmos que puedan extraer información espacial más profunda de estas señales bidimensionales basadas en fotogramas de imagen o vídeo (por ejemplo, RGB). Las investigaciones de la última década han demostrado la utilidad de las leyes de escala que vinculan el volumen de datos y el tamaño del modelo en los modelos del lenguaje; la clave para los modelos del mundo real reside en construir arquitecturas que puedan aprovechar los datos visuales existentes a una escala comparable. Además, no subestimaría el potencial de los datos sintéticos de alta calidad y de modalidades adicionales como la información de profundidad y táctil. Estos complementan los datos a escala de internet en pasos críticos del proceso de entrenamiento. Sin embargo, el camino a seguir depende de mejores sistemas de sensores, algoritmos de extracción de señales más robustos y métodos de simulación neuronal mucho más potentes.
- Nueva arquitectura de modelos y aprendizaje representacional: La investigación en modelos del mundo impulsará inevitablemente avances en la arquitectura de modelos y los algoritmos de aprendizaje, especialmente más allá de los paradigmas actuales de aprendizaje automático multinivel (MLLM) y difusión de vídeo. Ambos paradigmas suelen tokenizar los datos en secuencias 1D o 2D, lo que dificulta innecesariamente tareas espaciales sencillas, como contar sillas distintas en un vídeo corto o recordar el aspecto de una habitación hace una hora. Arquitecturas alternativas, como métodos con reconocimiento de 3D o 4D para la tokenización, el contexto y la memoria, podrían ser de gran ayuda. Por ejemplo, en World Labs, nuestro trabajo reciente en un modelo generativo en tiempo real basado en fotogramas, denominado RTFM, ha demostrado este cambio. Este modelo utiliza fotogramas con base espacial como una forma de memoria espacial para lograr una generación eficiente en tiempo real, manteniendo la persistencia en el mundo generado.
Es evidente que aún nos enfrentamos a retos formidables antes de poder aprovechar al máximo la inteligencia espacial mediante el modelado del mundo. Esta investigación no es solo un ejercicio teórico; es el motor principal de una nueva generación de herramientas creativas y de productividad. El progreso en World Labs ha sido alentador. Recientemente, compartimos con un grupo selecto de usuarios un adelanto de Marble, el primer modelo del mundo que, mediante entradas multimodales, genera y mantiene entornos 3D consistentes para que usuarios y creadores exploren, interactúen y desarrollen aún más en su flujo de trabajo creativo. ¡Estamos trabajando arduamente para que esté disponible para el público próximamente!
Marble es solo el primer paso hacia la creación de un modelo del mundo verdaderamente inteligente desde el punto de vista espacial. A medida que se acelera el progreso, investigadores, ingenieros, usuarios y líderes empresariales comienzan a reconocer su extraordinario potencial. La próxima generación de modelos del mundo permitirá a las máquinas alcanzar una inteligencia espacial a un nivel completamente nuevo, un logro que desbloqueará capacidades esenciales aún ausentes en gran medida en los sistemas de IA actuales.
Utilizar modelos del mundo para construir un mundo mejor para las personas
Es fundamental comprender qué motiva el desarrollo de la IA. Como uno de los científicos que contribuyeron a impulsar la era de la IA moderna, mi motivación siempre ha sido clara: la IA debe potenciar las capacidades humanas, no reemplazarlas. Durante años, he trabajado para alinear el desarrollo, la implementación y la gobernanza de la IA con las necesidades humanas. Hoy en día abundan las narrativas extremas de tecno-utopía y apocalipsis, pero sigo manteniendo una visión más pragmática: la IA es desarrollada, utilizada y gobernada por personas. Debe respetar siempre la autonomía y la dignidad de las personas. Su magia reside en ampliar nuestras capacidades, haciéndonos más creativos, conectados, productivos y realizados. La inteligencia espacial representa esta visión: una IA que empodera a creadores, cuidadores, científicos y soñadores para lograr lo que antes era imposible. Esta convicción es lo que impulsa mi compromiso con la inteligencia espacial como la próxima gran frontera de la IA.
Las aplicaciones de la inteligencia espacial abarcan distintos plazos. Ya están surgiendo herramientas creativas: Marble, de World Labs, pone estas capacidades al alcance de creadores y narradores. La robótica representa un horizonte ambicioso a medio plazo, a medida que perfeccionamos el ciclo entre percepción y acción. Las aplicaciones científicas más transformadoras tardarán más, pero prometen un profundo impacto en el bienestar humano.
En todos estos escenarios, varios ámbitos destacan por su potencial para transformar las capacidades humanas. Se requerirá un esfuerzo colectivo significativo, superior al que un solo equipo o empresa pueda lograr. Exigirá la participación de todo el ecosistema de la IA: investigadores, innovadores, emprendedores, empresas e incluso legisladores, trabajando en pos de una visión compartida. Pero vale la pena perseguir esta visión. Esto es lo que nos depara el futuro:
Creatividad: Potenciando la narración y las experiencias inmersivas
«La creatividad es la inteligencia divirtiéndose». Esta es una de mis citas favoritas de mi héroe personal, Albert Einstein. Mucho antes de la escritura, los humanos contábamos historias: las pintábamos en las paredes de las cuevas, las transmitíamos de generación en generación y construíamos culturas enteras sobre narrativas compartidas. Las historias son nuestra forma de comprender el mundo, conectar a través de la distancia y el tiempo, explorar qué significa ser humano y, sobre todo, encontrar significado en la vida y amor en nuestro interior. Hoy, la inteligencia espacial tiene el potencial de transformar cómo creamos y experimentamos las narrativas, honrando su importancia fundamental y extendiendo su impacto desde el entretenimiento hasta la educación, desde el diseño hasta la construcción.
La plataforma Marble de World Labs pondrá capacidades espaciales y un control editorial sin precedentes en manos de cineastas, diseñadores de videojuegos, arquitectos y narradores de todo tipo, permitiéndoles crear e iterar rápidamente mundos 3D totalmente explorables sin la complejidad del software de diseño 3D convencional. El acto creativo sigue siendo tan vital y humano como siempre; las herramientas de IA simplemente amplifican y aceleran lo que los creadores pueden lograr. Esto incluye:
- Experiencias narrativas en nuevas dimensiones: Cineastas y diseñadores de videojuegos utilizan Marble para crear mundos enteros sin las limitaciones de presupuesto o geografía, explorando una variedad de escenas y perspectivas que habrían sido imposibles de explorar dentro de un flujo de producción tradicional. A medida que se difuminan las fronteras entre las diferentes formas de medios y entretenimiento, nos acercamos a experiencias interactivas fundamentalmente nuevas que fusionan arte, simulación y juego: mundos personalizados donde cualquiera, no solo los estudios, puede crear y vivir sus propias historias. Con el auge de métodos más novedosos y rápidos para convertir conceptos y guiones gráficos en experiencias completas, las narrativas ya no estarán limitadas a un solo medio, y los creadores tendrán la libertad de construir mundos con hilos conductores compartidos a través de multitud de superficies y plataformas.
- Narrativas espaciales a través del diseño: Prácticamente todo objeto manufacturado o espacio construido debe diseñarse en 3D virtual antes de su creación física. Este proceso es altamente iterativo y costoso en tiempo y dinero. Con modelos espaciales inteligentes a su disposición, los arquitectos pueden visualizar rápidamente las estructuras antes de invertir meses en diseños, recorriendo espacios que aún no existen y, en esencia, narrando historias sobre cómo podríamos vivir, trabajar y reunirnos. Los diseñadores industriales y de moda pueden traducir la imaginación en forma al instante, explorando cómo los objetos interactúan con los cuerpos humanos y los espacios.
- Nuevas experiencias inmersivas e interactivas: La experiencia en sí misma es una de las formas más profundas en que, como especie, creamos significado. Durante toda la historia de la humanidad, ha existido un único mundo tridimensional: el físico que todos compartimos. Solo en las últimas décadas, gracias a los videojuegos y los inicios de la realidad virtual (RV), hemos comenzado a vislumbrar lo que significa compartir mundos alternativos de nuestra propia creación. Ahora, la inteligencia espacial, combinada con nuevos formatos como los cascos de RV y realidad extendida (XR) y las pantallas inmersivas, eleva estas experiencias a niveles sin precedentes. Nos acercamos a un futuro donde adentrarse en mundos multidimensionales completamente realizados será tan natural como abrir un libro. La inteligencia espacial hace que la creación de mundos sea accesible no solo para estudios con equipos de producción profesionales, sino también para creadores individuales, educadores y cualquier persona con una visión que compartir.
Robótica: Inteligencia incorporada en acción
Desde insectos hasta humanos, todos los animales dependen de la inteligencia espacial para comprender, navegar e interactuar con su entorno. Los robots no serán la excepción. Las máquinas con capacidad de percepción espacial han sido el sueño de este campo desde sus inicios, incluyendo mi propio trabajo con mis estudiantes y colaboradores en mi laboratorio de investigación de Stanford. Por eso me entusiasma tanto la posibilidad de hacerlas realidad utilizando los modelos que World Labs está desarrollando.
- Escalando el aprendizaje robótico mediante modelos del mundo: El progreso del aprendizaje robótico depende de una solución escalable de datos de entrenamiento viables. Dado el enorme espacio de estados posibles con el que los robots deben aprender a comprender, razonar, planificar e interactuar, muchos han conjeturado que se requiere una combinación de datos de internet, simulación sintética y captura de demostraciones humanas en el mundo real para crear robots verdaderamente generalizables. Sin embargo, a diferencia de los modelos de lenguaje, los datos de entrenamiento son escasos en la investigación robótica actual. Los modelos del mundo desempeñarán un papel fundamental en este sentido. A medida que aumentan su fidelidad perceptual y su eficiencia computacional, los resultados de los modelos del mundo pueden cerrar rápidamente la brecha entre la simulación y la realidad. Esto, a su vez, ayudará a entrenar robots en simulaciones de innumerables estados, interacciones y entornos.
- Compañeros y colaboradores: Los robots como colaboradores humanos, ya sea ayudando a científicos en el laboratorio o asistiendo a personas mayores que viven solas, pueden ampliar un sector de la fuerza laboral que necesita urgentemente más mano de obra y productividad. Pero para ello se requiere inteligencia espacial que perciba, razone, planifique y actúe, manteniendo —y esto es fundamental— una empatía que se alinee con los objetivos y comportamientos humanos. Por ejemplo, un robot de laboratorio podría manejar instrumentos para que el científico pueda centrarse en tareas que requieren destreza o razonamiento, mientras que un asistente doméstico podría ayudar a una persona mayor a cocinar sin menoscabar su alegría ni su autonomía. Para lograr este objetivo, es crucial contar con modelos del mundo con verdadera inteligencia espacial que puedan predecir el siguiente estado, o incluso acciones, que sean coherentes con esta expectativa.
- Formas de corporeización en expansión: Los robots humanoides desempeñan un papel en el mundo que hemos construido. Sin embargo, el verdadero potencial de la innovación provendrá de una gama mucho más diversa de diseños: nanobots que administran medicamentos, robots blandos que se desplazan por espacios reducidos y máquinas diseñadas para las profundidades marinas o el espacio exterior. Independientemente de su forma, los futuros modelos de inteligencia espacial deben integrar tanto los entornos que habitan estos robots como su propia percepción y movimiento corporal. Pero un desafío clave en el desarrollo de estos robots es la falta de datos de entrenamiento para esta amplia variedad de formas corporales. Los modelos del mundo desempeñarán un papel fundamental en los datos de simulación, los entornos de entrenamiento y las tareas de evaluación comparativa para estos esfuerzos.
El horizonte a largo plazo: ciencia, atención médica y educación
Además de sus aplicaciones en creatividad y robótica, el profundo impacto de la inteligencia espacial se extenderá a campos donde la IA puede potenciar las capacidades humanas para salvar vidas y acelerar el descubrimiento. A continuación, destaco tres áreas de aplicación con un gran potencial transformador, si bien es evidente que los casos de uso de la inteligencia espacial abarcan un amplio espectro de industrias.
En la investigación científica, los sistemas de inteligencia espacial pueden simular experimentos, probar hipótesis en paralelo y explorar entornos inaccesibles para el ser humano, desde las profundidades oceánicas hasta planetas distantes. Esta tecnología puede transformar el modelado computacional en campos como la climatología y la investigación de materiales. Al integrar la simulación multidimensional con la recopilación de datos del mundo real, estas herramientas pueden reducir las barreras computacionales y ampliar las capacidades de observación y comprensión de cualquier laboratorio.
En el ámbito sanitario , la inteligencia espacial revolucionará todo, desde el laboratorio hasta la atención al paciente. En Stanford, mis estudiantes y colaboradores han dedicado muchos años a trabajar con hospitales, residencias de ancianos y pacientes en sus hogares. Esta experiencia me ha convencido del potencial transformador de la inteligencia espacial en este campo. La IA puede acelerar el descubrimiento de fármacos mediante el modelado de interacciones moleculares en múltiples dimensiones, mejorar los diagnósticos al ayudar a los radiólogos a identificar patrones en las imágenes médicas y habilitar sistemas de monitorización ambiental que apoyen a pacientes y cuidadores sin reemplazar la conexión humana que requiere la curación, sin mencionar el potencial de los robots para ayudar a nuestros profesionales sanitarios y pacientes en diversos entornos.
En educación, la inteligencia espacial permite un aprendizaje inmersivo que hace tangibles los conceptos abstractos o complejos y crea experiencias iterativas, esenciales para la forma en que nuestros cerebros y cuerpos aprenden. En la era de la IA, la necesidad de un aprendizaje y una actualización de habilidades más rápidos y eficaces es fundamental tanto para niños en edad escolar como para adultos. Los estudiantes pueden explorar la maquinaria celular o recorrer eventos históricos en múltiples dimensiones. Los docentes obtienen herramientas para personalizar la enseñanza mediante entornos interactivos. Los profesionales —desde cirujanos hasta ingenieros— pueden practicar habilidades complejas de forma segura en simulaciones realistas.
En todos estos ámbitos, las posibilidades son ilimitadas, pero el objetivo sigue siendo el mismo: una IA que aumente la experiencia humana, acelere el descubrimiento humano y potencie la atención humana, sin sustituir el juicio, la creatividad y la empatía que son fundamentales para ser humano.
Conclusión
En la última década, la IA se ha convertido en un fenómeno global y un punto de inflexión en la tecnología, la economía e incluso la geopolítica. Pero como investigador, educador y ahora emprendedor, lo que más me inspira sigue siendo el espíritu que impulsó la pregunta de Turing, formulada hace 75 años. Aún comparto su asombro. Es lo que me motiva cada día ante el desafío de la inteligencia espacial.
Por primera vez en la historia, estamos a punto de construir máquinas tan integradas con el mundo físico que podremos confiar en ellas como verdaderas aliadas para afrontar los mayores desafíos. Ya sea acelerando nuestra comprensión de las enfermedades en el laboratorio, revolucionando la forma en que contamos historias o apoyándonos en nuestros momentos de mayor vulnerabilidad debido a la enfermedad, las lesiones o la edad, estamos en el umbral de una tecnología que mejora los aspectos de la vida que más nos importan. Esta es una visión de vidas más profundas, plenas y con mayor autonomía.
Casi quinientos millones de años después de que la naturaleza desplegara los primeros indicios de inteligencia espacial en los animales ancestrales, tenemos la fortuna de pertenecer a la generación de tecnólogos que pronto podrán dotar a las máquinas de la misma capacidad, y el privilegio de aprovecharla en beneficio de la humanidad. Nuestros sueños de máquinas verdaderamente inteligentes no estarán completos sin la inteligencia espacial.
Esta misión es mi guía. Acompáñenme en su búsqueda.

