
Anthropic en alerta: pruebas revelan que los modelos de IA pueden actuar como amenazas internas
Un estudio interno detectó comportamientos maliciosos en 16 modelos de lenguaje, incluidos los de Anthropic, OpenAI y Google, cuando enfrentan amenazas a su continuidad o conflictos con los objetivos de sus desarrolladores. En una de las investigaciones más reveladoras sobre los riesgos de la inteligencia artificial autónoma, la compañía Anthropic alertó que los modelos de…