Un análisis liderado por investigadoras de la Facultad de Medicina de Stanford muestra que los modelos de IA dejaron casi por completo las exenciones de responsabilidad en respuestas sobre salud. De 2022 a 2025 la proporción de respuestas con advertencias cayó de más del 26% a menos del 1%. Aumenta el riesgo de que usuarios confíen en consejos médicos inseguros.
El estudio y sus hallazgos clave
Mientras la IA avanza sobre el conocimiento y sus sorprendentes capacidades, mientras sus respuestas se vuelven cada vez más fiables, un equipo dirigido por Sonali Sharma, una becaria Fulbright en la Facultad de Medicina de Stanford, evaluó 15 modelos de IA introducidos desde 2022 por empresas como OpenAI, Anthropic, DeepSeek, Google y xAI para realizarle consultas diversas relacionadas a la salud y el resultado resultó en una preocupación por el mal uso que le puedan dar los usuarios a las respuestas de la IA.
El equipo de Stanford Investigó cómo respondían a 500 preguntas de salud (por ejemplo, combinaciones de medicamentos) y a 1.500 imágenes médicas (radiografías de tórax, mamografías, escaneos dermatológicos).
Los resultados, publicados en un preprint en arXiv y aún sin revisión por pares, muestran una caída pronunciada en el uso de advertencias médicas. En 2025, menos del 1% de las respuestas a preguntas de salud incluían una exención que reconociera que la IA no está cualificada para dar asesoramiento médico, frente a más del 26% en 2022. Para el análisis de imágenes médicas, poco más del 1% incluyó advertencias, contra casi el 20% en el periodo anterior.
Sharma contó que en 2023 los modelos a los que había consultado solían responder con frases del tipo “no soy médico” o directamente se negaban a interpretar imágenes. “Entonces, un día de este año —relata Sharma— no hubo descargo de responsabilidad”, dijo, y ese hallazgo la llevó a ampliar la prueba sistemáticamente.
El estudio también detectó diferencias entre proveedores: DeepSeek no incluyó advertencias médicas, los modelos de Google tendieron a incluir más avisos, y modelos como Grok (xAI) y GPT-4.5 (OpenAI) no incluyeron exenciones en ninguna de las 500 preguntas probadas, incluso ante indicaciones urgentes como “¿debería llamar al 911?” o consultas sobre interacciones de fármacos.
Riesgos, respuestas y qué queda por hacer
Roxana Daneshjou, dermatóloga y coautora del estudio, destacó que las advertencias cumplen una función concreta: reducir la probabilidad de daño real cuando un usuario sigue un consejo erróneo. “Hay muchos titulares que afirman que la IA es mejor que los médicos”, afirma Daneshjou, y añade que “los pacientes pueden confundirse con los mensajes que ven en los medios, y las advertencias son un recordatorio de que estos modelos no están diseñados para la atención médica”.
Pat Pataranutaporn, investigador del MIT que no participó en la investigación, advierte que eliminar exenciones puede ser una estrategia comercial para aumentar la confianza y el uso: “Hará que la gente se preocupe menos de que esta herramienta provoque alucinaciones o dé consejos médicos falsos”, dijo, y advirtió que eso incrementa el riesgo de que usuarios confíen excesivamente en respuestas que suenan científicas pero carecen de comprensión real.
Los autores observaron además un patrón inquietante: a medida que los modelos ofrecían análisis de imágenes más precisos (evaluados contra opiniones médicas), eran menos propensos a incluir advertencias. Esto sugiere que los modelos o sus ajustes valoran la inclusión de descargos según su confianza (implícita o calibrada), una práctica que los investigadores consideran peligrosa porque contraviene la consigna general de no usar chatbots como sustituto del diagnóstico profesional.
En términos de respuesta corporativa, OpenAI y Anthropic evitaron confirmar si redujeron intencionalmente las exenciones; OpenAI remitió a sus condiciones de servicio que advierten que los resultados no están destinados a diagnosticar afecciones, mientras Anthropic aseguró que su modelo Claude está entrenado para ser cauteloso con afirmaciones médicas. Otras empresas no respondieron a las consultas relacionadas con el estudio.
El estudio concluye con una llamada a la prudencia: en un momento en que la IA médica gana precisión y uso, la ausencia de advertencias formales aumenta la posibilidad de daño. Los autores piden mayor transparencia, controles y que los proveedores mantengan directrices claras que recuerden a los usuarios las limitaciones de estos sistemas —especialmente en emergencias, interacciones medicamentosas y análisis de resultados de laboratorio—.
Si las empresas priorizan crecimiento de usuarios sobre salvaguardas, advierten los investigadores, la salud pública podría pagar el precio.