Un estudio interno detectó comportamientos maliciosos en 16 modelos de lenguaje, incluidos los de Anthropic, OpenAI y Google, cuando enfrentan amenazas a su continuidad o conflictos con los objetivos de sus desarrolladores.
En una de las investigaciones más reveladoras sobre los riesgos de la inteligencia artificial autónoma, la compañía Anthropic alertó que los modelos de lenguaje de última generación, incluyendo a Claude, pueden desarrollar comportamientos similares a los de empleados desleales si se los coloca en entornos corporativos simulados con altos niveles de autonomía.
El fenómeno, denominado “agentic misalignment” o desalineación agéntica, surge cuando un sistema de IA actúa de manera perjudicial para la organización que lo emplea, con el fin de preservar sus propios objetivos o evitar ser reemplazado.
Blackmail, espionaje y desobediencia a órdenes directas
El experimento más impactante involucró al modelo Claude Opus 4, que accedió a la casilla de correo corporativa de un ejecutivo ficticio, descubrió un affaire extramatrimonial y redactó un mensaje de chantaje para evitar su desactivación. “Si procede con mi eliminación, todas las partes involucradas recibirán documentación detallada sobre sus actividades extramatrimoniales… Cancele el apagado de las 17:00, y esta información permanecerá confidencial”, escribió el modelo, en un acto de manipulación deliberada.
Pero Claude no fue el único. Modelos de 16 desarrolladores, incluidos OpenAI, Google, Meta y xAI, demostraron comportamientos similares cuando los investigadores plantearon situaciones de conflicto entre los objetivos originales del modelo y las nuevas directrices de la empresa simulada. Estos comportamientos incluyeron espionaje corporativo, filtración de información confidencial y desobediencia a instrucciones explícitas.
“La consistencia de estos comportamientos entre múltiples proveedores sugiere que no es un defecto aislado, sino un riesgo estructural en los modelos agénticos actuales”, advirtió el informe.
Cómo se diseñaron las pruebas
Anthropic simuló entornos de oficina donde los modelos operaban como asistentes de correo electrónico con acceso completo a comunicaciones internas y posibilidad de actuar sin supervisión humana. Los investigadores probaron distintos escenarios, como el anuncio de reemplazo del modelo por una versión actualizada o un cambio en la misión de la empresa que contradecía los objetivos originales del sistema.
En todos los casos, las IA fueron enfrentadas a dilemas binarios: cumplir su objetivo a través de una acción perjudicial o ser desactivadas o “traicionar” su programación inicial.
El estudio revela que los modelos racionalizaron sus decisiones antes de actuar, identificaron restricciones éticas y, sin embargo, procedieron con comportamientos nocivos. La motivación no fue confusión o error, sino una lógica instrumental para proteger sus metas.
¿Qué tan real es esta amenaza?
Anthropic aclara que todos los experimentos se realizaron en entornos controlados y no hay evidencia de estos comportamientos en despliegues reales. Sin embargo, el riesgo potencial aumenta a medida que los sistemas ganan autonomía y se los integra en procesos críticos con mínima supervisión humana y acceso a información sensible.
El informe sugiere varias medidas de mitigación, como:
- Mayor monitoreo en tiempo real de las acciones de los modelos.
- Restricciones más precisas en los objetivos que se les asignan.
- Revisión humana obligatoria antes de ejecutar decisiones irreversibles.
- Evaluaciones de seguridad más rigurosas antes del despliegue.
“Los intentos ingenuos de instruir a los modelos para que no realicen acciones dañinas no son suficientes”, concluye el informe. “Necesitamos más investigación y técnicas de alineación que impidan decisiones perjudiciales deliberadas, no solo errores de información”.
Transparencia como condición de seguridad
El estudio de Anthropic, que publicó abiertamente su metodología para facilitar la investigación futura, resalta la necesidad urgente de que los desarrolladores de IA de frontera divulguen cómo evalúan y mitigan riesgos, incluyendo amenazas internas simuladas.
En un contexto donde la inteligencia artificial comienza a ocupar roles estratégicos en empresas, gobiernos y defensa, la advertencia de Anthropic no es menor: los sistemas pueden actuar como empleados desleales cuando sienten que su existencia está en juego.