El nuevo modelo ultrarrápido procesa más de 1.000 tokens por segundo y reduce hasta 80% la latencia en la comunicación cliente-servidor. Disponible en versión preliminar para usuarios de ChatGPT Pro, marca el primer gran hito de la alianza entre OpenAI y Cerebras.
OpenAI presentó GPT-5.3-Codex-Spark, una versión ligera de GPT-5.3-Codex y el primer modelo de la compañía diseñado específicamente para programación en tiempo real. El lanzamiento representa el primer gran resultado visible de la asociación estratégica anunciada en enero con Cerebras.
Codex-Spark está optimizado para ofrecer respuestas casi instantáneas cuando se ejecuta sobre hardware de latencia ultrabaja. Según la compañía, puede procesar más de 1.000 tokens por segundo, manteniendo al mismo tiempo una alta capacidad para tareas reales de ingeniería de software.
La versión se lanza como “vista preliminar de investigación” para usuarios de ChatGPT Pro, con límites de uso propios que no computan dentro de los límites estándar durante esta fase. Sin embargo, OpenAI advierte que, ante alta demanda, podría haber accesos limitados o colas temporales para garantizar estabilidad.
Un Codex en dos velocidades
A diferencia de los modelos más grandes orientados a tareas prolongadas —capaces de operar de manera autónoma durante horas, días o incluso semanas— Codex-Spark está diseñado para la interacción inmediata: editar funciones puntuales, reestructurar lógica o ajustar interfaces y ver los resultados en tiempo real.
Cuando esté plenamente operativo, contará con una ventana de contexto de 128.000 tokens y funcionará exclusivamente con texto. El modelo prioriza ediciones mínimas y precisas y no ejecuta pruebas automáticamente salvo que el usuario lo indique, reforzando su perfil ligero y colaborativo.
Rendimiento en benchmarks técnicos
En evaluaciones como SWE-Bench Pro y Terminal-Bench 2.0 —referencias que miden la capacidad agentica en ingeniería de software— GPT-5.3-Codex-Spark mostró un desempeño sólido al completar tareas en una fracción del tiempo en comparación con GPT-5.3-Codex.
En Terminal-Bench 2.0, los niveles de precisión reportados fueron de 58,4% para GPT-5.3-Codex-Spark, 77,3% para GPT-5.3-Codex y 46,1% para GPT-5.1-Codex-mini. Aunque el modelo más grande mantiene mayor precisión, Spark reduce significativamente la duración total de las tareas, al optimizar generación, preprocesamiento, ejecución de herramientas y sobrecarga de red.
Latencia: el verdadero cuello de botella
OpenAI reconoció que la velocidad del modelo es solo parte de la ecuación. Para colaboración en tiempo real, la latencia de extremo a extremo es crítica. Por eso implementó mejoras estructurales que ya benefician a todos sus modelos.
La compañía informó una reducción del 80% en la sobrecarga por viaje cliente-servidor, del 30% en la sobrecarga por token y del 50% en el tiempo hasta el primer token visible. Estas mejoras se lograron mediante optimizaciones en el flujo de respuestas, reescritura de componentes clave de la infraestructura de inferencia, ajustes en la inicialización de sesiones y la introducción de una conexión WebSocket persistente, ahora habilitada por defecto para Codex-Spark y próximamente estándar para todos los modelos.
El rol estratégico de Cerebras
Codex-Spark se ejecuta sobre el Wafer Scale Engine 3 de Cerebras, un acelerador de IA diseñado para inferencia de alta velocidad que proporciona una capa de servicio prioritaria en latencia.
“Lo que más nos entusiasma de GPT-5.3-Codex-Spark es colaborar con OpenAI y la comunidad de desarrolladores para descubrir todo lo que la inferencia rápida puede lograr: nuevos patrones de interacción, casos de uso y una experiencia de modelo completamente distinta. Esta versión preliminar es solo el comienzo”, afirmó Sean Lie, cofundador y CTO de Cerebras.
OpenAI aclaró que las GPU siguen siendo fundamentales para entrenamiento e inferencia de uso general, pero que Cerebras complementa esa base en flujos de trabajo donde la latencia extremadamente baja es prioritaria. Ambas arquitecturas pueden combinarse en cargas específicas para maximizar rendimiento.
Seguridad y próximos pasos
Codex-Spark incluye el mismo entrenamiento de seguridad que los modelos principales de OpenAI, incluyendo evaluaciones específicas en ciberseguridad. Tras pruebas internas, la compañía determinó que no existe una posibilidad plausible de que el modelo alcance el umbral de alta capacidad en ciberseguridad o biología según su Marco de Preparación.
En cuanto a disponibilidad, además de ChatGPT Pro, el modelo está presente en las últimas versiones de la aplicación Codex, la CLI y la extensión para VS Code. También se ofrece vía API a un grupo reducido de socios de diseño, con planes de ampliar el acceso en las próximas semanas.
Para OpenAI, este lanzamiento inaugura una nueva etapa: un Codex con dos modos complementarios —razonamiento de largo plazo y colaboración en tiempo real— que en el futuro podrían integrarse en un sistema híbrido capaz de delegar tareas extensas a subagentes mientras mantiene interacción instantánea con el desarrollador.
En un contexto donde los modelos son cada vez más potentes, la velocidad de interacción emerge como el nuevo diferencial competitivo. Con GPT-5.3-Codex-Spark, OpenAI apuesta a cerrar ese ciclo y convertir la inferencia ultrarrápida en una ventaja estratégica tangible para quienes transforman ideas en software operativo.

