La compañía presentó una nueva versión de su modelo abierto MedGemma, con mejoras sustanciales en interpretación de imágenes médicas complejas, y lanzó MedASR, un sistema de reconocimiento de voz especializado en el ámbito de la salud. La iniciativa refuerza la adopción acelerada de IA en el sector sanitario.
La adopción de inteligencia artificial en el sector de la salud avanza a un ritmo acelerado y ya duplica al del resto de la economía. En ese contexto, Google Research anunció una actualización clave de su modelo abierto MedGemma, junto con el lanzamiento de MedASR, una nueva herramienta de reconocimiento automático de voz entrenada específicamente para el ámbito médico. Ambos desarrollos forman parte del programa Health AI Developer Foundations (HAI-DEF) y están disponibles para uso gratuito tanto en investigación como en aplicaciones comerciales.
Según explicaron Daniel Golden, Engineering Manager, y Fereshteh Mahvar, Software Engineer de Google Research, la nueva versión MedGemma 1.5 4B responde directamente al feedback de la comunidad global de desarrolladores, que ya descargó millones de veces la primera versión del modelo y creó cientos de variantes publicadas en Hugging Face.
MedGemma 1.5: un salto en imágenes médicas de alta complejidad
Desde su concepción, MedGemma fue diseñado como un modelo multimodal, reflejando la naturaleza multidimensional de la medicina. Mientras que MedGemma 1 se enfocaba en imágenes médicas bidimensionales —como radiografías de tórax, imágenes dermatológicas, oftalmológicas y parches de histopatología—, MedGemma 1.5 amplía su alcance a imágenes médicas de alta dimensionalidad.
Entre las nuevas capacidades se destacan la interpretación de tomografías computadas (CT), resonancias magnéticas (MRI) y láminas completas de histopatología, así como el análisis longitudinal de series de imágenes y la localización anatómica precisa en radiografías de tórax.
Los resultados internos muestran mejoras relevantes. En la clasificación de hallazgos patológicos en CT, la precisión absoluta promedio subió del 58% al 61%, mientras que en MRI el salto fue del 51% al 65%, una mejora de 14 puntos porcentuales. En histopatología, la fidelidad de las predicciones, medida con ROUGE-L, pasó de 0,02 a 0,49, igualando el desempeño del modelo especializado PolyPath, que obtuvo 0,498.
Además, MedGemma 1.5 4B logró avances significativos en otras tareas clave: la localización anatómica mejoró un 35% en intersección sobre unión en el benchmark Chest ImaGenome; el análisis longitudinal de radiografías de tórax aumentó la precisión macro del 61% al 66%; la interpretación general de imágenes médicas subió del 59% al 62%; y la extracción estructurada de datos de informes de laboratorio mostró una mejora del 18%, pasando de 60% a 78% en F1 macro.
Mejor desempeño en texto clínico y registros médicos
Las mejoras no se limitaron al procesamiento visual. Gracias a nuevos conjuntos de datos y técnicas de entrenamiento, MedGemma 1.5 4B incrementó su desempeño en tareas textuales médicas. En el benchmark MedQA, orientado a razonamiento clínico, la precisión pasó del 64% al 69%, mientras que en preguntas y respuestas sobre historias clínicas electrónicas (EHRQA) el salto fue aún mayor: del 68% al 90%.
Google decidió publicar inicialmente la versión 4B, un modelo lo suficientemente eficiente como para ejecutarse incluso sin conexión, y mantener disponible el modelo MedGemma 1 de 27B parámetros para aplicaciones textuales más complejas.
MedASR: voz médica con menor tasa de error
Junto a MedGemma 1.5, Google presentó MedASR, un modelo abierto de reconocimiento automático de voz entrenado específicamente para dictado médico. La herramienta permite transcribir conversaciones clínicas y generar prompts hablados para interactuar con MedGemma.
En comparaciones directas con Whisper large-v3, un modelo generalista, MedASR mostró 58% menos errores en dictados de radiografías de tórax, con una tasa de error de palabras (WER) del 5,2% frente al 12,5%, y 82% menos errores en un benchmark interno de dictado médico con múltiples especialidades, donde la WER bajó del 28,2% al 5,2%.
Casos de uso reales y adopción global
El ecosistema ya comenzó a aprovechar estas capacidades. En Asia, Qmed Asia adaptó MedGemma para askCPG, una interfaz conversacional que permite consultar más de 150 guías clínicas de Malasia. Según el Ministerio de Salud del país, la herramienta mejoró el soporte a la toma de decisiones clínicas diarias, especialmente gracias a la extensión multimodal para imágenes médicas.
En Taiwán, la Administración Nacional del Seguro de Salud utilizó MedGemma para analizar más de 30.000 informes de patología en evaluaciones preoperatorias de cirugía de cáncer de pulmón, con el objetivo de mejorar decisiones de política sanitaria y resultados en pacientes.
Un desafío abierto para el ecosistema
Como parte de esta estrategia, Google lanzó el MedGemma Impact Challenge, un hackatón organizado en Kaggle con U$S 100.000 en premios, abierto a desarrolladores de todo el mundo. El objetivo es explorar nuevos usos de la IA para transformar la atención médica y las ciencias de la vida.
MedGemma 1.5, MedASR y el resto de los modelos HAI-DEF están disponibles en Hugging Face y pueden escalarse en Vertex AI sobre Google Cloud, con soporte completo para DICOM, un estándar clave en imágenes médicas.
Desde Google remarcan que los modelos fueron entrenados con datasets públicos y privados debidamente anonimizados, garantizando la protección de la privacidad de los pacientes. Con estas actualizaciones, la compañía busca consolidar un nuevo estándar abierto para la próxima generación de inteligencia artificial médica, combinando imágenes, texto y voz en un mismo flujo clínico.

