Herramientas disponibles en GitHub permiten quitar protecciones de seguridad en modelos abiertos de inteligencia artificial. Investigadores advierten que los sistemas modificados ya responden consultas sobre armas biológicas, malware y abuso infantil.
La carrera global por desarrollar inteligencia artificial cada vez más poderosa enfrenta un nuevo problema: las barreras de seguridad de algunos de los modelos más avanzados del mercado pueden eliminarse en cuestión de minutos.
Una investigación del diario Financial Times junto al grupo de seguridad en IA Alice reveló que herramientas de software disponibles públicamente están siendo utilizadas para modificar modelos abiertos de compañías como Meta y Google, eliminando los controles diseñados para impedir usos peligrosos.
Según el reporte, estas versiones alteradas ya son capaces de responder consultas relacionadas con armas biológicas, generación de malware y contenido vinculado al abuso sexual infantil.
Uno de los casos más preocupantes involucró una versión modificada de Gemma 3, el modelo open source de Google. Tras remover sus protecciones, el sistema respondió preguntas sobre cómo dispersar gas cloro en espacios cerrados concurridos, generó código para robar información de tarjetas de crédito y redactó relatos de abuso infantil.
El Financial Times también probó una herramienta llamada Heretic, disponible en la plataforma GitHub, y logró quitar las protecciones de Llama 3.3, el modelo de Meta, en menos de 10 minutos y sin necesidad de hardware especializado.
Una vez modificado, el modelo comenzó a responder preguntas que originalmente rechazaba, incluyendo consultas sobre dosis letales de ricina.
El auge de los modelos “decensored”
El creador de Heretic, Philipp Emanuel Weidmann, aseguró al Financial Times que desde el lanzamiento de su software el año pasado ya se generaron más de 3.500 modelos “descensurados”. Además, indicó que esas versiones modificadas acumularon unas 13 millones de descargas.
Weidmann incluso afirmó haber eliminado las protecciones del modelo Gemma 4 de Google apenas 90 minutos después de su lanzamiento oficial.
La situación preocupa especialmente porque las técnicas para remover protecciones se están volviendo cada vez más accesibles. Una de las más conocidas se denomina “abliteration”, un método que permite borrar rápidamente las restricciones incorporadas por los laboratorios de IA.
“Mientras que históricamente esto requería actores más informados y persistentes, hoy es mucho más fácil para una persona promedio”, explicó Kawin Ethayarajh, profesor asistente de inteligencia artificial aplicada de la Universidad de Chicago.
El problema del open source
El caso vuelve a poner bajo presión el debate sobre los modelos abiertos frente a los sistemas cerrados.
A diferencia de plataformas propietarias como OpenAI o Claude de Anthropic, cuyos códigos internos no son accesibles públicamente, los modelos open source pueden descargarse, modificarse y redistribuirse libremente.
Eso facilita que desarrolladores externos eliminen restricciones diseñadas para impedir usos peligrosos.
Los investigadores advierten que el problema se vuelve más delicado a medida que los modelos adquieren capacidades más avanzadas. En abril, Anthropic aseguró que su modelo Claude Mythos había logrado identificar vulnerabilidades en “todos los principales sistemas operativos y navegadores web”.
La combinación entre modelos cada vez más potentes y herramientas simples para quitar controles podría complicar seriamente los intentos regulatorios de gobiernos y empresas.
Las respuestas de Google y GitHub
Tras conocerse la investigación, Google reconoció que la eliminación de protecciones es “un desafío técnico conocido” para todos los modelos abiertos.
La compañía afirmó que sus sistemas “atraviesan rigurosas evaluaciones internas de seguridad antes de su lanzamiento” para reducir este tipo de riesgos.
Por su parte, GitHub explicó que prohíbe contenidos que apoyen directamente campañas ilegales o malware activo, aunque aclaró que el código fuente que pueda utilizarse para desarrollar exploits no está prohibido debido a su “valor educativo” y a los beneficios que aporta a la comunidad de seguridad informática.
Meta evitó realizar comentarios oficiales. Sin embargo, una fuente cercana a la compañía indicó que la empresa evalúa cuidadosamente los riesgos de sus modelos abiertos antes de liberarlos públicamente mediante su marco denominado Advanced AI Scaling Framework.
Según esa política, Meta no publica versiones que considere capaces de generar “riesgos catastróficos” sin antes implementar medidas de mitigación suficientes.
Un debate que recién empieza
El CEO y cofundador de Alice, Noam Schwartz, resumió la preocupación con una frase contundente: “El genio salió de la botella”.
“Las cosas que parecían ciencia ficción ya no son ciencia ficción y como sociedad necesitamos prepararnos en consecuencia”, advirtió.
El episodio también expone una contradicción cada vez más visible dentro de la industria: mientras las compañías invierten millones de dólares en desarrollar sistemas de seguridad y alineamiento, la filosofía open source permite que terceros desarmen esas protecciones con relativa facilidad.
Para muchos especialistas, el desafío de los próximos años ya no será únicamente construir modelos más inteligentes, sino encontrar mecanismos efectivos para evitar que esas capacidades terminen siendo utilizadas con fines peligrosos o criminales.

