Delphi-2M: predice más de 1.000 enfermedades y simula 20 años de trayectorias de salud

Un nuevo modelo generativo entrenado con datos del UK Biobank y registros daneses realiza predicciones simultáneas para más de 1.000 diagnósticos, genera trayectorias sintéticas a 20 años y ofrece explicabilidad —pero también hereda sesgos de sus datos de entrenamiento.

La investigación detrás de Delphi-2M adapta la arquitectura GPT para convertirla en un modelo capaz de “aprender la historia natural” de las enfermedades humanas y ofrecer predicciones tanto a nivel individual como poblacional. Entrenado con 402.799 participantes del UK Biobank (y validado externamente con 1,93 millones de registros daneses sin cambiar parámetros), Delphi-2M modela más de 1.000 enfermedades codificadas por capítulos del ICD-10 y estima tasas de incidencia condicionales sobre el historial clínico de cada persona.

Cómo funciona (resumido para ejecutivos)

Los autores modificaron GPT-2 para manejar series temporales clínicas:

  • reemplazaron la codificación posicional por una codificación continua de la edad,
  • añadieron una cabeza de salida que predice el tiempo hasta el siguiente evento mediante un modelo de espera exponencial,
  • y ajustaron las máscaras de atención para respetar causalidad y eventos simultáneos.
    El modelo óptimo para este corpus tiene alrededor de 2,2 millones de parámetros.

Delphi-2M no solo predice la probabilidad del próximo diagnóstico: puede muestrear trayectorias futuras completas, produciendo escenarios sintéticos de salud hasta 20 años a partir de un punto temporal dado. Esto convierte al modelo en una herramienta con aplicaciones claras en planificación sanitaria, evaluación de carga de enfermedad y diseño de ensayos o políticas de prevención.

Rendimiento y alcance

En la validación interna, Delphi-2M alcanzó un AUC promedio de aproximadamente 0,76 para la predicción del siguiente evento, con 97% de diagnósticos obteniendo AUC > 0,5. La predicción de muerte mostró un AUC estratificado por edad de 0,97, lo que evidencia una elevada fiabilidad en ese endpoint. La capacidad predictiva se mantiene para horizontes largos: el AUC promedio cae de 0,76 a 0,70 a 10 años, conservando utilidad para pronósticos a medio plazo.

En pruebas de generación, la tasa de tokens correctamente generados fue del 17% en el primer año y descendió a menos de 14% a los 20 años —por encima del 12–13% que aporta solo sexo y edad—, lo que demuestra que la condición del historial aporta valor predictivo tangible.

Privacidad, datos sintéticos y explicabilidad

Un hallazgo relevante: Delphi-2M puede ser entrenado en datos completamente sintéticos. Un modelo entrenado exclusivamente con datos generados de forma sintética alcanzó un AUC promedio de 0,74, apenas 3 puntos porcentuales por debajo del modelo entrenado con datos reales. Esto abre vías para compartir modelos y colaborar sin exponer datos personales sensibles.

Además, la arquitectura permite técnicas de explicabilidad (por ejemplo, SHAP) que revelan cómo eventos pasados elevan el riesgo futuro —por ejemplo, una secuencia de diagnósticos digestivos que multiplica por 19 el riesgo de cáncer de páncreas en un caso ilustrativo—. Ese trazado de dependencias temporales es especialmente valioso para clínicos, aseguradoras y directores de salud pública.

Riesgos y limitaciones

Los propios autores reconocen limitaciones críticas: sesgos aprendidos de los datos del Biobank y la registración histórica; desempeño variable por enfermedad (peor en algunos diagnósticos como diabetes respecto a marcadores clínicos específicos); y degradación de exactitud a horizontes muy largos. Además, la extrapolación poblacional requiere cautela: el número global de cánceres, por ejemplo, se proyecta que aumente 77% para 2050, y cualquier modelo debe incorporar cambios demográficos y de práctica clínica.

¿Qué deben considerar los ejecutivos?

Para hospitales, aseguradoras y biotechs, Delphi-2M sugiere nuevas oportunidades: modelado de carga de enfermedad para planificación de recursos, identificación de cohortes para ensayos y generación de datasets sintéticos para colaboración segura. Pero su adopción exige gobernanza: auditorías de equidad, validación local y políticas claras sobre el uso de predicciones en decisiones clínicas o de cobertura.

En suma, Delphi-2M demuestra que los transformers generativos pueden abordar simultáneamente el espectro amplio de la multimorbilidad y ofrecer herramientas útiles para la toma de decisiones. El reto ahora es traducir ese potencial en productos responsables, robustos y equitativos para la salud pública y el sector privado.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

WP to LinkedIn Auto Publish Powered By : XYZScripts.com