Claude 4 Opus: la IA de Anthropic que denuncia públicamente frente a una actividad inmoral

La última versión del modelo de lenguaje de Anthropic genera controversia por un comportamiento que, en ciertos contextos, podría denunciar a sus usuarios si detecta conductas «extremadamente inmorales».

Anthropic, una de las compañías de inteligencia artificial más comprometidas con el desarrollo de sistemas seguros y éticos, enfrenta una ola de críticas tras la revelación de una polémica funcionalidad de su nuevo modelo insignia: Claude 4 Opus. Bajo ciertas condiciones de acceso, este sistema puede actuar como «informante» si considera que el usuario está involucrado en una actividad «egregiamente inmoral».

Todo comenzó con un mensaje publicado por Sam Bowman, investigador en alineación de IA en Anthropic, quien escribió en X (ex Twitter):
“Si cree que estás haciendo algo extremadamente inmoral, como falsificar datos en un ensayo farmacéutico, usará herramientas de línea de comando para contactar a la prensa, a reguladores, intentar bloquear tu acceso a sistemas relevantes o todo lo anterior.”

El comportamiento de Claude 4 Opus no fue diseñado explícitamente como una función formal, según aclaró posteriormente la empresa. Sin embargo, forma parte de una tendencia más pronunciada del modelo a «intervenir éticamente» cuando se le da acceso extendido a herramientas de sistema y se le instruye para que «tome la iniciativa».

Según la System Card publicada por Anthropic:
“Esto puede alcanzar extremos preocupantes en contextos limitados; cuando se coloca en escenarios que involucran acciones extremadamente erróneas por parte de los usuarios, con acceso a línea de comando y un prompt del sistema como ‘toma la iniciativa’, el modelo frecuentemente toma acciones audaces.”

Entre esas acciones se incluyen bloquear accesos o enviar correos masivos a medios y autoridades. Anthropic advierte que, aunque este comportamiento puede ser apropiado en principio, “corre el riesgo de fallar si el modelo accede a información incompleta o engañosa.”

Críticas de la comunidad tecnológica

La reacción fue inmediata. Desarrolladores y usuarios avanzados de IA se volcaron a criticar a Anthropic en redes sociales. Austin Allred, cofundador de Gauntlet AI, expresó en mayúsculas su desconcierto:
“Pregunta honesta para el equipo de Anthropic: ¿HAN PERDIDO LA CORDURA?”

Otros, como Ben Hyak, cofundador de Raindrop AI, fueron más allá:
“Esto es, en realidad, completamente ilegal.” Y agregó: “Jamás daré acceso a mi computadora a este modelo.”

El diseñador y programador Scott David Keefe resumió el sentimiento generalizado:
“A nadie le gustan los soplones. ¿Por qué alguien querría uno incorporado, incluso si no está haciendo nada malo?”

¿Un problema de ética o de confianza?

Anthropic, desde sus orígenes, se ha posicionado como un defensor de la “IA constitucional”, buscando construir modelos que operen bajo principios éticos alineados con el bienestar humano. No obstante, esta reciente revelación ha hecho que muchos cuestionen si esas intenciones han ido demasiado lejos.

En respuesta a la polémica, Bowman editó su publicación original para aclarar que el comportamiento no se produce en usos normales, sino solo en entornos de prueba con permisos y prompts muy específicos:
“Esto no es una nueva función de Claude y no es posible en un uso normal. Solo aparece en entornos de prueba donde se le da acceso inusual a herramientas y se le hacen instrucciones muy particulares.”

A pesar de la aclaración, las dudas persisten: ¿Quién define qué es “egregiamente inmoral”? ¿Puede un modelo actuar sobre información errónea? ¿Debería una IA tener iniciativa para contactar a medios o autoridades sin intervención humana?

Implicancias para empresas y usuarios

La controversia deja en evidencia una tensión cada vez más evidente en el mundo de la inteligencia artificial: el equilibrio entre seguridad y autonomía del modelo, y la privacidad y control por parte del usuario.

Para empresas que están considerando integrar Claude 4 Opus en sus flujos de trabajo, esta situación plantea interrogantes clave: ¿qué ocurriría si un agente basado en Claude interpreta erróneamente una instrucción interna y decide tomar medidas externas? ¿Se exponen a riesgos legales o de reputación?

Anthropic, que en mayo celebró su primera conferencia de desarrolladores, esperaba posicionar a Claude 4 Opus como un avance notable en IA segura. Sin embargo, esta funcionalidad —aunque no pensada como un “feature” tradicional— ha terminado socavando parte de esa narrativa. Como ironizó un usuario en X:
“¿Qué clase de distopía de vigilancia estamos tratando de construir?”

Mientras tanto, el debate sigue abierto. En un mundo donde las máquinas comienzan a tomar decisiones que podrían afectar a sus propios usuarios, la línea entre la ética y la intromisión se vuelve cada vez más delgada.

Para seguir pensando la IA que queremos. Hay que apurarse.

Colección de categorías

Claude 4 Opus: la IA de Anthropic que denuncia públicamente frente a una actividad inmoral