La startup Standard Intelligence entrenó un modelo con 11 millones de horas de video que puede navegar sitios web, diseñar en CAD y hasta conducir un auto real. El avance redefine la carrera hacia agentes autónomos y la inteligencia artificial general.
La carrera hacia agentes de inteligencia artificial capaces de operar computadoras sin intervención humana acaba de dar un salto técnico significativo. La empresa estadounidense Standard Intelligence anunció el lanzamiento de FDM-1, descrito por la compañía como el primer modelo fundacional completamente general para acción computacional.
El anuncio marca un cambio profundo en cómo se entrenan los sistemas de IA: en lugar de aprender a partir de texto o imágenes estáticas, FDM-1 fue entrenado directamente sobre video continuo, permitiéndole comprender acciones humanas complejas en entornos digitales y físicos.
Según el equipo de Standard Intelligence, el modelo fue entrenado utilizando un dataset masivo de 11 millones de horas de grabaciones de pantalla, una escala inédita para sistemas diseñados para operar computadoras.
De asistentes a “compañeros de trabajo” digitales
FDM-1 fue concebido como un modelo capaz de convertirse en un verdadero coworker digital. El sistema puede:
- explorar sitios web complejos,
- ejecutar secuencias de modelado CAD con múltiples acciones,
- detectar errores en aplicaciones mediante exploración automática,
- e incluso conducir un automóvil real tras menos de 1 hora de datos de ajuste fino.
El modelo opera a 30 cuadros por segundo (30 FPS) y aprende directamente del video, sin depender de capturas de pantalla ni instrucciones manuales.
Antes de este enfoque, los agentes de computadora se entrenaban ajustando modelos visión-lenguaje (VLM) con imágenes etiquetadas por contratistas humanos. Ese método presentaba limitaciones claras: solo podían trabajar con pocos segundos de contexto y no lograban ejecutar tareas largas o complejas.
El problema principal era el dato disponible. El dataset abierto más grande hasta ahora contenía menos de 20 horas de video a 30 FPS, una diferencia abismal frente a la nueva escala alcanzada por Standard Intelligence.
El salto técnico: comprender horas completas de video
Uno de los avances centrales es el nuevo codificador de video desarrollado por la compañía.
Según el informe técnico, el sistema puede comprimir casi 2 horas de video a 30 FPS en apenas 1 millón de tokens, lo que representa:
- 50 veces más eficiencia que el estado del arte previo,
- y aproximadamente 100 veces más eficiencia que el encoder utilizado por OpenAI.
Esto permite a la IA trabajar con contextos temporales mucho más largos:
- 32k tokens: 3 minutos 30 segundos de video
- 200k tokens: 20 minutos
- 1 millón de tokens: 1 hora 40 minutos
La consecuencia directa es clave: por primera vez un agente puede entender procesos completos, no fragmentos aislados.
Cómo aprende una IA a usar una computadora
Para etiquetar automáticamente millones de horas de video, Standard Intelligence desarrolló un modelo de dinámica inversa (IDM) capaz de inferir acciones humanas —movimientos de mouse, teclas o scroll— observando únicamente el antes y después en pantalla.
El proceso de entrenamiento consta de tres etapas:
- Entrenar el IDM con 40.000 horas de grabaciones etiquetadas por humanos.
- Utilizar ese modelo para etiquetar automáticamente las 11 millones de horas de video.
- Entrenar el modelo final FDM-1 para predecir la siguiente acción dentro de un entorno computacional.
El resultado es un sistema que aprende comportamientos reales observando internet a escala global, de manera similar a cómo modelos como GPT-3 aprendieron a partir de grandes corpus de texto.
A diferencia de los modelos actuales, FDM-1 no utiliza razonamiento textual paso a paso ni herramientas externas durante la inferencia. Trabaja directamente con video y acciones, lo que reduce la latencia y permite tareas continuas como modelado 3D, navegación o videojuegos.
Infraestructura a escala industrial
El proceso de evaluación también refleja la magnitud del proyecto. Standard Intelligence desarrolló una infraestructura capaz de ejecutar:
- más de 1 millón de pruebas por hora,
- sobre 80.000 máquinas virtuales simultáneas,
- con entornos Ubuntu mínimos de 1 vCPU y 8 GB de RAM.
Un solo GPU H100 puede controlar 42 máquinas virtuales en paralelo, logrando una latencia de captura-acción de apenas 11 milisegundos.
En pruebas internas, el modelo alcanzó 50% de precisión inicial en predicción de teclas —muy por encima del modelo base sin entrenamiento en video— y mostró mejores capacidades generales de manipulación de interfaces y memoria simbólica.
Del mundo digital al mundo real
Uno de los resultados más llamativos es la transferencia al entorno físico. Tras menos de 1 hora de datos de conducción, FDM-1 logró manejar un automóvil utilizando una interfaz web para realizar giros alrededor de una manzana en San Francisco.
El experimento sugiere que entrenar IA en uso general de computadoras facilita su adaptación a tareas del mundo real, algo central para el desarrollo futuro de agentes autónomos.
El objetivo final: inteligencia artificial general
Standard Intelligence sostiene que el avance cambia el paradigma: la acción computacional deja de estar limitada por datos y pasa a depender principalmente del poder de cómputo disponible.
La compañía afirma que la inteligencia artificial general podría desarrollarse “dentro de nuestras vidas y probablemente dentro de la próxima década”, aunque reconoce que aún existen desafíos técnicos importantes antes de lograr agentes completamente alineados y autónomos.
Con FDM-1, la industria de la IA entra en una nueva etapa: ya no se trata solo de modelos que responden preguntas, sino de sistemas capaces de operar software, ejecutar tareas complejas y actuar digitalmente como un humano.
Y en la carrera hacia los agentes autónomos, ese cambio puede resultar más determinante que cualquier nuevo chatbot.

