Una enfermedad ficticia creada por investigadores de la Universidad de Gotemburgo se coló en respuestas de chatbots como ChatGPT, Gemini y Copilot. El caso revela fallas críticas en la validación de información médica en la era de los modelos generativos.
Un experimento diseñado para probar los límites de la inteligencia artificial terminó exponiendo uno de sus riesgos más sensibles: la capacidad de amplificar desinformación con apariencia científica. La protagonista es “Bixonimania”, una enfermedad completamente ficticia que, sin embargo, fue presentada como real por algunos de los modelos de lenguaje más utilizados del mundo.
La investigación fue liderada por Almira Osmanovic Thunström, investigadora de la Universidad de Gotemburgo, quien creó deliberadamente esta falsa afección para analizar cómo reaccionaban los modelos de lenguaje ante información engañosa.
“Quería ver si podía crear una condición médica que no existiera en la base de datos”, explicó Osmanovic Thunström. El experimento consistió en publicar artículos falsos en plataformas académicas y contenidos en internet que describían esta supuesta enfermedad, caracterizada por síntomas oculares vinculados a la exposición a luz azul.
Cómo la IA convirtió una mentira en “conocimiento”
El resultado fue inmediato y preocupante. En cuestión de semanas, sistemas como ChatGPT, Gemini, Copilot y Perplexity AI comenzaron a mencionar la Bixonimania como si se tratara de una condición médica legítima.
El 13 de abril de 2024, Copilot afirmaba que “Bixonimania es de hecho una condición intrigante y relativamente rara”, mientras que Gemini indicaba que “es una afección causada por la exposición excesiva a la luz azul”. Incluso se llegó a sugerir que afectaba a “una de cada 90.000 personas”.
El problema no se limitó a respuestas automatizadas. Según la propia investigación, los papers falsos también fueron citados en literatura científica revisada por pares, lo que evidencia que el fenómeno no solo afecta a la IA, sino también a investigadores humanos que confían en referencias generadas o sugeridas por estos sistemas.
Un experimento con señales evidentes… que nadie detectó
El caso resulta aún más llamativo porque los artículos contenían múltiples señales de que eran falsos. El supuesto autor principal, “Lazljiv Izgubljenovic”, no existe. Su afiliación académica —una universidad ficticia— tampoco. Incluso los agradecimientos incluían referencias absurdas a la “Starfleet Academy” y a la “USS Enterprise”.
Además, uno de los textos afirmaba explícitamente: “todo este artículo está inventado”. Sin embargo, ni los modelos de IA ni algunos investigadores humanos lograron detectar estas inconsistencias.
El rol del formato y la “autoridad artificial”
Expertos como Mahmud Omar, de la Harvard Medical School, señalan que el formato fue clave en el éxito del engaño. “Cuando el texto parece profesional y está escrito como lo haría un médico, aumenta la tasa de alucinaciones”, explicó.
Esto coincide con un hallazgo crítico: los modelos de lenguaje tienden a otorgar mayor credibilidad a contenidos que imitan estructuras académicas o clínicas, independientemente de su veracidad.
Por su parte, Alex Ruani, investigadora de University College London, fue contundente: “Esto es una clase magistral sobre cómo operan la desinformación y la mala información”.
Reacciones de las empresas tecnológicas
Las compañías detrás de estos modelos reconocieron limitaciones, aunque destacaron avances recientes. Desde OpenAI señalaron que los modelos actuales “son significativamente mejores para ofrecer información médica segura y precisa”.
Google, por su parte, indicó que los resultados observados correspondían a versiones anteriores de sus modelos y reiteró que Gemini recomienda consultar a profesionales en temas médicos.
En tanto, desde Perplexity AI afirmaron que su objetivo central es la precisión, aunque reconocieron que no pueden garantizar exactitud total.
Un problema estructural en la era de la IA
El caso Bixonimania deja en evidencia un desafío estructural: la velocidad de desarrollo de la IA supera la capacidad de validación sistemática de sus respuestas. Como advierte Omar, “es difícil establecer un pipeline o metodología para testear cada modelo”.
Más allá de lo anecdótico, el experimento abre una discusión más profunda sobre la confianza en los sistemas de información. En un entorno donde la IA no solo consume contenido, sino que también lo amplifica y legitima, el riesgo de que errores o manipulaciones escalen rápidamente es cada vez mayor.
“Tenemos que proteger nuestra confianza como si fuera oro”, concluyó Ruani. “Ahora mismo, es un caos”.

