GLM-5.1: el modelo chino de IA que desafía a OpenAI y Anthropic en programación avanzada

La startup china Z.ai presentó GLM-5.1, un modelo de inteligencia artificial orientado a tareas complejas de ingeniería y programación que promete competir con GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro en benchmarks de alto nivel.

La carrera global por la inteligencia artificial acaba de sumar un nuevo competidor de peso. La compañía china Z.ai presentó oficialmente GLM-5.1, su nueva generación de modelos de IA orientados a programación avanzada, automatización de tareas complejas y agentes autónomos capaces de trabajar durante horas sin intervención humana.

El anuncio posiciona a GLM-5.1 como una de las apuestas más ambiciosas surgidas desde China para competir directamente con modelos de empresas como OpenAI, Anthropic y Google. Según la compañía, el sistema logra resultados de “estado del arte” en pruebas de ingeniería de software y mantiene rendimiento sostenido en tareas de largo plazo, un desafío clave para la industria.

Uno de los datos más relevantes es que GLM-5.1 alcanzó una puntuación de 58,4 en SWE-Bench Pro, superando a GPT-5.4 de OpenAI (57,7) y a Claude Opus 4.6 de Anthropic (57,3). También obtuvo ventajas significativas sobre su predecesor, GLM-5, en benchmarks como NL2Repo y Terminal-Bench 2.0, centrados en generación de repositorios y tareas reales de terminal.

El foco está en los agentes autónomos

La compañía asegura que el verdadero salto no está únicamente en el rendimiento inicial, sino en la capacidad del modelo para sostener procesos de optimización durante cientos de iteraciones y miles de llamadas a herramientas externas.

“GLM-5.1 está diseñado para seguir siendo efectivo en tareas agentic durante horizontes mucho más largos”, explicó la empresa en la presentación técnica del modelo.

Según Z.ai, modelos anteriores —incluido GLM-5— tendían a resolver rápidamente los problemas más evidentes y luego quedaban estancados. En cambio, GLM-5.1 puede descomponer problemas complejos, ejecutar experimentos, analizar resultados y modificar estrategias de manera iterativa durante sesiones prolongadas.

La empresa mostró varios ejemplos concretos. Uno de ellos fue la optimización de una base de datos vectorial durante más de 600 iteraciones y 6.000 llamadas a herramientas. En esa prueba, el sistema pasó de un rendimiento inicial de 3.547 consultas por segundo a 21.500 consultas por segundo, multiplicando por seis el mejor resultado previo obtenido en sesiones tradicionales.

Otro caso estuvo relacionado con optimización de cargas de trabajo de machine learning sobre GPU. Allí, GLM-5.1 logró mejoras de rendimiento de 3,6 veces respecto al código original, aunque todavía quedó detrás de Claude Opus 4.6, que alcanzó 4,2 veces.

Una IA que trabaja durante horas

Uno de los experimentos más llamativos presentados por Z.ai consistió en pedirle al modelo que construyera un entorno de escritorio Linux completo como aplicación web, sin código inicial ni instrucciones intermedias.

La empresa explicó que la mayoría de los modelos actuales suelen detenerse rápidamente tras crear una interfaz básica. GLM-5.1, en cambio, continuó trabajando durante ocho horas, agregando funciones, mejorando diseño, incorporando aplicaciones y refinando interacciones.

“Cuanto más tiempo trabaja, mejores son los resultados”, sostuvo la compañía.

Ese enfoque apunta directamente al futuro de los llamados “agentes de IA”, sistemas capaces de ejecutar tareas complejas de forma autónoma y sostenida, uno de los principales objetivos estratégicos de empresas como OpenAI, Anthropic, Google y Meta.

Código abierto y competencia global

Otro aspecto importante del lanzamiento es que GLM-5.1 fue liberado bajo licencia MIT como modelo open source. Eso significa que desarrolladores y empresas pueden descargarlo, modificarlo y ejecutarlo localmente.

El modelo ya está disponible en plataformas como HuggingFace y ModelScope, y es compatible con herramientas populares de programación asistida por IA como Claude Code, OpenCode, Roo Code, Cline y Droid.

Además, Z.ai confirmó que GLM-5.1 podrá utilizarse desde su propia plataforma comercial y que también será compatible con frameworks de inferencia como vLLM y SGLang.

La publicación del modelo se produce en un contexto de tensión creciente entre Estados Unidos y China por el liderazgo en inteligencia artificial. En las últimas semanas, OpenAI y Anthropic acusaron públicamente a compañías chinas de utilizar técnicas de “distillation” para replicar capacidades de modelos estadounidenses mediante consultas masivas.

Al mismo tiempo, Washington incrementó las restricciones sobre exportación de chips avanzados hacia China, mientras las empresas chinas aceleran el desarrollo de modelos propios cada vez más competitivos.

Los números detrás de GLM-5.1

En benchmarks de razonamiento, el modelo obtuvo 95,3 puntos en AIME 2026 y 86,2 en GPQA-Diamond, acercándose a GPT-5.4 y Gemini 3.1 Pro en varias categorías.

En tareas agentic también mostró avances importantes. En BrowseComp con manejo de contexto alcanzó 79,3 puntos, mientras que en CyberGym obtuvo 68,7, superando a DeepSeek-V3.2 y acercándose a Claude Opus 4.6.

La compañía también destacó resultados económicos en Vending Bench 2, donde GLM-5.1 logró generar U$S 5.634,41 frente a U$S 6.144,18 de GPT-5.4 y U$S 8.017,59 de Claude Opus 4.6.

Aunque todavía reconoce que existen desafíos pendientes —como evitar caer en “óptimos locales” o mejorar la autoevaluación en tareas subjetivas—, Z.ai considera que GLM-5.1 representa “el primer paso” hacia modelos capaces de sostener procesos de razonamiento y ejecución durante períodos mucho más largos que los actuales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com