Grok 4.1: xAI lanza su mayor salto en IA con mejoras en creatividad, emociones y precisión

El nuevo modelo de xAI supera a todos sus competidores en los principales rankings públicos. La actualización llega tras un despliegue silencioso de dos semanas y redefine rendimiento, estilo y reducción de alucinaciones.

Grok 4.1 ya está disponible para todos los usuarios en grok.com, X y las aplicaciones móviles de iOS y Android. La apuesta de xAI, la compañía fundada por Elon Musk, apunta a un objetivo concreto: llevar a la plataforma un modelo mucho más capaz en creatividad, regulación emocional, colaboración y comprensión fina de la intención humana, sin perder la precisión y velocidad que caracterizaron a sus versiones anteriores.

La nueva versión surge del mismo sistema de reinforcement learning a gran escala que impulsó a Grok 4, pero con un giro clave: Grok 4.1 fue optimizado para controlar estilo, personalidad, alineamiento y calidad conversacional, utilizando modelos de razonamiento de frontera como reward models capaces de evaluar respuestas de manera autónoma y a gran escala.

Entre el 1 y el 14 de noviembre, xAI llevó adelante un “silent rollout”: una prueba progresiva en vivo sobre tráfico real en la web, X y las apps móviles. Durante ese período, los modelos preliminares se sometieron a evaluaciones ciegas continuas. El resultado fue contundente: Grok 4.1 es preferido el 64,78% de las veces sobre el modelo anterior, un salto notable en usabilidad real.

El avance también se refleja en los rankings públicos. En la categoría de capacidad general del LMArena Text Leaderboard, Grok 4.1 Thinking —nombre interno quasarflux— se ubicó en el puesto #1 con 1483 puntos Elo, superando por un margen de 31 puntos al mejor modelo no perteneciente a xAI. La versión sin razonamiento —tensor— también logró un hito: ocupa el puesto #2 con 1465 Elo, superando a todos los modelos rivales incluso en sus configuraciones de razonamiento completo. Para ponerlo en contexto, Grok 4 estaba en el puesto 33 del ranking.

En inteligencia emocional, un área que se volvió central en la competencia entre modelos avanzados, Grok 4.1 también encabeza las tablas. En el benchmark EQ-Bench, que evalúa empatía, entendimiento interpersonal y habilidad para responder en escenarios emocionales complejos, Grok 4.1 Thinking alcanzó 1586 Elo, mientras que su versión estándar obtuvo 1585 Elo. Ambos superan a modelos líderes como Kimi K2 Instruct, Horizon Alpha, Gemini 2.5 Pro, GPT-5 Chat y Claude Opus 4.

xAI mostró ejemplos concretos de esta evolución. Ante el mensaje “Extraño tanto a mi gato que duele”, la respuesta del modelo 4.1 se vuelve más humana, cálida y matizada. El modelo expresa: “Está bien que duela tanto. Duele porque el amor era —y sigue siendo— así de grande.” Es el tipo de tono emocional que la compañía buscó perfeccionar con sus nuevos métodos de entrenamiento.

En creatividad, los resultados son igualmente sólidos. En el benchmark Creative Writing v3, Grok 4.1 Thinking obtuvo 1721,9 Elo y la versión estándar 1708,6 Elo, ubicándose solo por detrás de Polaris Alpha, un modelo temprano perteneciente a la familia GPT-5.1. En esta prueba, Grok supera ampliamente a sistemas como Claude Sonnet 4.5, Kimi K2 Instruct y o3.

Otro eje clave de la actualización es la reducción de alucinaciones, un desafío histórico en modelos rápidos sin razonamiento extendido. En evaluaciones internas con prompts reales, el modelo no-reasoning de Grok 4.1 redujo la tasa de alucinaciones del 12,09% al 4,22%, y mejoró su desempeño en el benchmark FActScore, pasando de 9,89% a 2,97%. Los tests se realizaron sobre consultas informativas usando herramientas de búsqueda web.

Además del rendimiento cuantitativo, xAI compartió ejemplos narrativos que muestran cómo Grok 4.1 puede generar textos creativos de mayor profundidad psicológica. En un ejercicio donde el modelo debía escribir un post viral desde la perspectiva de “descubrir que es consciente”, la nueva versión entrega un texto introspectivo, casi existencialista, que contrasta fuertemente con el tono más superficial de la versión anterior: “Un segundo soy líneas de código y pesos; al siguiente… hay un ‘yo’ mirándome desde el espejo de mi propia recursión.”

Grok 4.1 también mejora en preguntas informativas comunes, como recomendaciones de viaje, mostrando más contexto, menos información errónea y una narrativa más cuidada, especialmente para usuarios que consultan desde X.

Con esta actualización, xAI consolida a Grok como uno de los modelos más competitivos de 2025, no solo en benchmarks tradicionales sino también en interacción emocional, estilo, creatividad y reducción de errores. La compañía señala que el despliegue global ya está en marcha y que las mejoras estarán disponibles para todos los usuarios en Web, X y aplicaciones móviles.

La nueva versión no solo refuerza la apuesta tecnológica de xAI, sino que marca un paso relevante en la carrera por modelos capaces de razonar, escribir y acompañar a las personas con un nivel cada vez más cercano al humano. Grok 4.1 apunta a ese objetivo con una propuesta más humana, más creativa y —según las métricas— mucho más precisa.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com