La compañía reconoce que los ataques que manipulan agentes de inteligencia artificial no tienen una solución definitiva y refuerza la seguridad de ChatGPT Atlas con nuevas defensas automatizadas.
El debate vuelve a poner en foco los riesgos de los navegadores “agénticos” y el delicado equilibrio entre autonomía, acceso y seguridad.
OpenAI reconoció públicamente que los navegadores impulsados por inteligencia artificial, como su ChatGPT Atlas, probablemente seguirán siendo vulnerables a los llamados ataques de prompt injection, una técnica que busca manipular a los agentes de IA para que ejecuten instrucciones maliciosas ocultas en correos electrónicos, documentos o páginas web. La admisión, poco habitual en el discurso corporativo del sector, plantea interrogantes sobre cuán seguros pueden operar estos agentes en la web abierta.
“La inyección de prompts, al igual que las estafas y la ingeniería social en la web, es poco probable que alguna vez se ‘resuelva’ por completo”, escribió OpenAI en una publicación de su blog, donde detalló las medidas que está tomando para reforzar la seguridad de Atlas. En el mismo documento, la empresa reconoció que el llamado “modo agente” de ChatGPT Atlas “amplía la superficie de amenaza de seguridad”.
OpenAI lanzó su navegador Atlas en octubre y, casi de inmediato, investigadores en seguridad comenzaron a publicar demostraciones que mostraban cómo unas pocas líneas de texto en Google Docs podían alterar el comportamiento subyacente del navegador. Ese mismo día, Brave difundió un análisis técnico en el que advertía que la inyección indirecta de prompts es un desafío sistémico para los navegadores basados en IA, una categoría que también incluye a Comet, de Perplexity.
La preocupación no se limita al sector privado. A comienzos de este mes, el National Cyber Security Centre (NCSC) del Reino Unido advirtió que los ataques de prompt injection contra aplicaciones de IA generativa “podrían nunca mitigarse por completo”, exponiendo a sitios web y organizaciones a filtraciones de datos. El organismo gubernamental recomendó a los profesionales de ciberseguridad enfocarse en reducir el riesgo y el impacto, en lugar de asumir que estos ataques pueden “detenerse” de manera definitiva.
Desde OpenAI, el mensaje es similar. “Consideramos la inyección de prompts como un desafío de seguridad de IA a largo plazo, y necesitaremos fortalecer continuamente nuestras defensas contra ella”, señaló la compañía. Su estrategia se apoya en un ciclo proactivo de detección y respuesta rápida, que busca identificar nuevas tácticas de ataque internamente antes de que aparezcan “en la naturaleza”.
Este enfoque no difiere demasiado del de otros actores relevantes del sector. Empresas como Anthropic y Google sostienen que, frente a un riesgo persistente, las defensas deben ser estratificadas y sometidas a pruebas constantes. En el caso de Google, el foco reciente estuvo puesto en controles arquitectónicos y de políticas para sistemas agénticos.
Donde OpenAI sí marca una diferencia es en el uso de un “atacante automatizado basado en LLM”. Se trata de un bot entrenado mediante reinforcement learning para comportarse como un hacker y buscar activamente formas de introducir instrucciones maliciosas en un agente de IA. Este sistema puede simular ataques, observar cómo razona el modelo objetivo y ajustar la estrategia una y otra vez, aprovechando un nivel de visibilidad interna que no está disponible para atacantes externos.
“Nuestro atacante entrenado con aprendizaje por refuerzo puede guiar a un agente para que ejecute flujos de trabajo dañinos sofisticados y de largo alcance, que se desarrollan a lo largo de decenas (o incluso cientos) de pasos”, explicó OpenAI. Según la empresa, también se detectaron “estrategias de ataque novedosas que no aparecieron en nuestras campañas de red teaming humano ni en reportes externos”.
En una demostración, OpenAI mostró cómo este atacante automatizado logró introducir un correo electrónico malicioso en la bandeja de entrada de un usuario. Cuando el agente de IA escaneó el correo, siguió las instrucciones ocultas y envió un mensaje de renuncia en lugar de redactar una respuesta automática de ausencia. Tras una actualización de seguridad, el “modo agente” logró detectar el intento de inyección y alertar al usuario, de acuerdo con la compañía.
Aun así, OpenAI reconoció que proteger a los usuarios de Atlas de manera infalible es extremadamente difícil. Por eso, además de reforzar sus sistemas, la empresa publicó recomendaciones prácticas: limitar el acceso del agente a cuentas sensibles, exigir confirmaciones antes de enviar mensajes o realizar pagos, y dar instrucciones específicas en lugar de delegar acciones de forma amplia. “Una libertad excesiva facilita que contenido oculto o malicioso influya en el agente, incluso cuando existen salvaguardas”, advirtió la compañía.
Desde el sector de la ciberseguridad, Rami McCarthy, investigador principal de la firma Wiz, aportó una mirada crítica. “Una forma útil de razonar sobre el riesgo en sistemas de IA es autonomía multiplicada por acceso”, explicó. Según McCarthy, los navegadores agénticos se ubican en una zona compleja: “autonomía moderada combinada con un acceso muy alto”.
El especialista fue aún más escéptico respecto al valor actual de estos productos. “Para la mayoría de los casos de uso cotidianos, los navegadores agénticos todavía no ofrecen suficiente valor como para justificar su perfil de riesgo actual”, afirmó. El acceso a datos sensibles como correos electrónicos e información de pagos los vuelve poderosos, pero también especialmente peligrosos.
El consenso emergente es claro: los navegadores con IA representan una evolución significativa en la interacción humano-máquina, pero su adopción masiva dependerá de que las empresas logren equilibrar innovación, seguridad y confianza. Por ahora, incluso OpenAI admite que la batalla contra la prompt injection está lejos de terminar.

