La compañía liderada por Dario Amodei refuerza su posición en la carrera por la IA de frontera con un modelo que combina mayor capacidad de razonamiento, contexto de hasta 1 millón de tokens y mejoras clave en seguridad. Claude Opus 4.6 apunta a convertirse en una herramienta central para desarrolladores, empresas y trabajadores del conocimiento.
Anthropic anunció el lanzamiento de Claude Opus 4.6, la nueva versión de su modelo más avanzado, con mejoras sustanciales en programación, razonamiento complejo, tareas agentivas de largo plazo y uso de contexto extendido. Se trata de la primera vez que un modelo de la familia Opus incorpora una ventana de contexto de hasta 1 millón de tokens, disponible en beta, un salto técnico que apunta directamente a los límites actuales de la inteligencia artificial aplicada al trabajo profesional.
Según la compañía fundada por Dario Amodei, Opus 4.6 fue diseñado para operar de forma más autónoma y confiable en escenarios reales, desde grandes bases de código hasta análisis financieros, investigación y producción de documentos complejos. El modelo ya está disponible en claude.ai, vía API y en las principales plataformas cloud, manteniendo el mismo esquema de precios: U$S 5 por millón de tokens de entrada y U$S 25 por millón de tokens de salida.
Un modelo pensado para el trabajo real
Anthropic destaca que Opus 4.6 no solo mejora sus capacidades técnicas, sino también su desempeño en tareas cotidianas de alto valor económico. El modelo puede ejecutar análisis financieros, realizar investigaciones complejas y trabajar de manera integrada con documentos, hojas de cálculo y presentaciones. En el entorno Cowork, Claude es capaz de multitasking autónomo, combinando estas habilidades sin supervisión constante.
En palabras de la compañía, “con Opus 4.6, el modelo aporta mayor foco en las partes más complejas de una tarea, se mueve con rapidez en las secciones simples y maneja problemas ambiguos con mejor criterio”. Anthropic señala además que el modelo “permanece productivo durante sesiones más largas”, una limitación histórica de los modelos de lenguaje.
Liderazgo en benchmarks y razonamiento avanzado
En términos de evaluación, Claude Opus 4.6 se posiciona como state-of-the-art en múltiples pruebas clave. Logró el mejor resultado en Terminal-Bench 2.0, una evaluación centrada en programación agentiva, y lidera Humanity’s Last Exam, una prueba multidisciplinaria de razonamiento complejo.
Uno de los datos más destacados aparece en GDPval-AA, un benchmark que mide desempeño en tareas de trabajo económicamente valiosas en áreas como finanzas y derecho. Allí, Opus 4.6 supera al siguiente mejor modelo de la industria —GPT-5.2 de OpenAI— por 144 puntos Elo, y a su antecesor Claude Opus 4.5 por 190 puntos. También lidera BrowseComp, que evalúa la capacidad de encontrar información difícil de localizar en la web.
El salto del contexto largo
Uno de los avances más relevantes es la mejora en el uso efectivo de contextos extensos. Anthropic reconoce el problema del “context rot”, donde los modelos pierden precisión a medida que se extienden las conversaciones. En el benchmark MRCR v2 (8-needle, 1M tokens), Opus 4.6 alcanza una tasa de acierto del 76%, frente al 18,5% de Claude Sonnet 4.5.
Esto implica que el modelo no solo puede procesar grandes volúmenes de información, sino también razonar con coherencia y precisión después de hacerlo, una capacidad clave para análisis legales, auditorías, revisiones de código y tareas científicas.
Más inteligencia sin sacrificar seguridad
Anthropic subraya que estos avances no llegan a costa de la seguridad. En auditorías automáticas de comportamiento, Opus 4.6 mostró bajas tasas de desalineación, incluyendo engaño, complacencia excesiva o cooperación con usos indebidos. De hecho, presenta la menor tasa de rechazos innecesarios entre los modelos recientes de Claude.
La empresa realizó el conjunto más amplio de evaluaciones de seguridad hasta la fecha, incluyendo pruebas sobre bienestar del usuario, solicitudes peligrosas y acciones dañinas encubiertas. Además, introdujo seis nuevas pruebas específicas de ciberseguridad, un área donde el modelo muestra capacidades particularmente avanzadas.
Novedades para desarrolladores y empresas
Junto con el modelo, Anthropic lanzó mejoras clave en su plataforma. Entre ellas se destacan:
- Adaptive thinking, que permite al modelo decidir cuándo aplicar razonamiento profundo.
- Cuatro niveles de esfuerzo (low, medium, high y max), para balancear costo, velocidad e inteligencia.
- Context compaction, que resume automáticamente el contexto para tareas de larga duración.
- Salidas de hasta 128.000 tokens, ideales para trabajos extensos.
En el plano productivo, Claude ahora ofrece agentes en equipo dentro de Claude Code, mejoras sustanciales en Excel y una vista previa de Claude en PowerPoint, orientada a usuarios corporativos de los planes Max, Team y Enterprise.
Con Claude Opus 4.6, Anthropic refuerza su estrategia de posicionarse como proveedor de IA de frontera enfocada en trabajo real, seguridad y confiabilidad, en una competencia cada vez más intensa con actores como OpenAI y los grandes proveedores de modelos fundacionales.

