Desde OpenAI y Anthropic hasta Google, 2025 marcó un punto de inflexión para los LLM: nuevos métodos de entrenamiento, aplicaciones inesperadas y un cambio profundo en la forma en que humanos y máquinas interactúan. Lejos de la promesa abstracta de la AGI, las empresas líderes avanzaron con mejoras concretas que ya están impactando en el desarrollo de software, la productividad y la economía digital.
El año 2025 quedará registrado como uno de los más intensos y transformadores en la historia reciente de los grandes modelos de lenguaje (LLM, por sus siglas en inglés). Más que una simple mejora incremental, lo ocurrido en los principales laboratorios de inteligencia artificial redefinió la forma en que estos sistemas aprenden, razonan y se integran en productos reales utilizados por millones de personas y empresas.
Uno de los cambios más relevantes fue la consolidación del Reinforcement Learning from Verifiable Rewards (RLVR) como una nueva etapa clave en el entrenamiento de modelos. Hasta comienzos de 2025, el estándar de la industria combinaba preentrenamiento masivo, ajuste supervisado y Reinforcement Learning from Human Feedback (RLHF), una receta establecida desde la era de InstructGPT. Sin embargo, el RLVR introdujo un giro conceptual: entrenar modelos contra recompensas objetivas y automáticamente verificables, como problemas matemáticos o desafíos de programación.
Este enfoque permitió que los LLM desarrollaran, de manera emergente, estrategias de razonamiento que para los humanos resultan reconocibles: descomposición de problemas, cálculos intermedios y correcciones iterativas. Tal como se observa en investigaciones como el paper de DeepSeek R1, estos comportamientos habrían sido extremadamente difíciles de inducir mediante supervisión humana directa. OpenAI dio el primer indicio con o1 a fines de 2024, pero fue el lanzamiento de o3 a comienzos de 2025 el que dejó en evidencia un salto cualitativo perceptible incluso para usuarios no técnicos.
Este nuevo paradigma también alteró la economía del cómputo. El RLVR mostró una relación capacidad/costo particularmente eficiente, absorbiendo recursos que originalmente estaban destinados al preentrenamiento. El resultado fue claro: modelos de tamaño similar a los de años previos, pero con entrenamientos de refuerzo mucho más prolongados y un nuevo “control” sobre la capacidad en tiempo de inferencia, aumentando deliberadamente el tiempo de razonamiento.
En paralelo, 2025 ayudó a clarificar la verdadera naturaleza de la inteligencia de los LLM. Lejos de “crecer como animales”, estos sistemas se comportan más como entidades radicalmente distintas, optimizadas para imitar texto humano, maximizar recompensas en entornos verificables y responder a señales artificiales. Esta lógica explica su desempeño irregular: pueden comportarse como polímatas brillantes en ciertos dominios y, segundos después, fallar en tareas triviales. Este carácter “dentado” o jagged intelligence también erosionó la confianza en los benchmarks tradicionales, cada vez más vulnerables a entrenamientos indirectos sobre los propios tests.
En el plano de las aplicaciones, Cursor emergió como uno de los casos más emblemáticos del año. Más allá de su crecimiento acelerado, la compañía expuso una nueva capa del ecosistema: aplicaciones que no solo llaman a un modelo, sino que orquestan múltiples invocaciones, gestionan contexto, equilibran costos y ofrecen interfaces diseñadas para humanos. Este fenómeno dio lugar a una idea recurrente en el sector: “Cursor para X”. La hipótesis dominante es que los grandes laboratorios formarán modelos cada vez más generales, mientras que startups y desarrolladores construirán soluciones verticales que conviertan esa inteligencia en profesionales operativos.
Otro hito fue Claude Code, de Anthropic, que se consolidó como una de las primeras demostraciones convincentes de un agente de IA que “vive” en la computadora del usuario. A diferencia de los enfoques centrados en la nube, Claude Code se ejecuta localmente, con acceso directo al entorno, los datos y el contexto del desarrollador. Esta decisión de diseño redefinió la experiencia: la IA dejó de ser solo un sitio web y pasó a funcionar como una presencia persistente, integrada al flujo de trabajo diario.
El año también vio nacer y popularizar el concepto de “vibe coding”, una práctica que refleja un cambio cultural profundo. La capacidad de construir software complejo a partir de instrucciones en lenguaje natural redujo drásticamente las barreras de entrada a la programación. Esto no solo habilitó a personas sin formación técnica, sino que permitió a profesionales desarrollar herramientas efímeras, prototipos rápidos y soluciones descartables con una libertad inédita.
Finalmente, Google aportó uno de los avances más disruptivos en términos de interfaz con Gemini Nano “banana”, un modelo que anticipa el futuro de la interacción humano-IA. En lugar de limitarse al texto, este enfoque integra generación visual, conocimiento del mundo y lenguaje en un solo sistema. La apuesta es clara: así como la GUI transformó la computación clásica, los LLM necesitarán interfaces visuales, espaciales y multimodales para alcanzar su verdadero potencial.
En síntesis, 2025 confirmó que los grandes modelos de lenguaje constituyen una nueva clase de inteligencia. Son, al mismo tiempo, más capaces y más limitados de lo que muchos anticipaban. Su utilidad ya es indiscutible, pero el consenso en la industria es que aún no se explotó ni el 10% de su potencial. Para empresas, desarrolladores y emprendedores, el campo sigue abierto y lleno de oportunidades. El desafío, ahora, es convertir estos avances técnicos en valor económico y social sostenible.

