La colaboración entre Meta, Lawrence Berkeley y Los Alamos lanza OMol25, un archivo con más de 100 millones de cálculos de simulación molecular con precisión cuántica, abriendo una nueva era para la IA en la química, energía y la biomedicina.
Meta, junto a los laboratorios nacionales Lawrence Berkeley (Berkeley Lab) y Los Alamos, presentó Open Molecules 2025 (OMol25), un conjunto de datos sin precedentes pensado para entrenar modelos de inteligencia artificial con precisión de química cuántica. Este recurso, disponible públicamente a través del servidor arXiv y licenciado abiertamente, promete transformar la investigación en ámbitos como biología, ciencia de materiales y tecnologías energéticas.
¿Por qué es tan relevante OMol25?
- Contiene más de 100 millones de cálculos realizados con teoría del funcional de densidad (DFT), nivel de precisión cuántica .
- Cubre aproximadamente 83 millones de sistemas moleculares únicos, incluyendo biomoléculas, complejos metálicos y electrólitos, algunos con hasta 350 átomos.
- El proyecto consumió miles de millones de horas de CPU en computación, reflejando un esfuerzo a escala extrema .
Michael G. Taylor, investigador de Los Alamos, señaló: “Para entrenar modelos de aprendizaje automático capaces de precisión de química cuántica, necesitamos vastas cantidades de datos diversos y válidos. Open Molecules 2025 cierra esa brecha…”.
Architector: el arma secreta detrás del dataset
La herramienta Architector, desarrollada por Taylor, fue clave para generar estructuras tridimensionales de complejos metálicos del bloque F (lantánidos y actínidos). Cada uno de los 17 elementos de tierras raras cuenta con aproximadamente 20.000 estructuras simuladas, mientras que los datasets previos del mismo tipo solían incluir apenas 1.000 estructuras por elemento.
Impacto en la IA molecular
La disponibilidad de OMol25 permitirá entrenar potenciales interatómicos aprendidos por máquina (MLIP) capaces de ofrecer precisión DFT a velocidades hasta 10.000 veces más rápidas, facilitando simulaciones a gran escala y reducción de tiempos y costos en investigación.
Según Taylor, “El diseño molecular a menudo se resume en predecir propiedades de nuevas químicas con mínimo costo computacional. Contar con este dataset y entrenar ML puede ser transformador para el descubrimiento científico”.
Un recurso abierto y estratégico
A diferencia de bases de datos previas como Alchemy (con apenas ~120.000 moléculas en 2019), OMol25 eleva el estándar al incluir interacciones complejas y solvated states, enriqueciendo significativamente el entrenamiento de modelos .
Meta se ha comprometido a liberar también modelos base entrenados con este dataset, permitiendo a investigadores y desarrolladores adaptar y refinar sus propios sistemas con una base robusta y bien documentada .
¿Qué significa para la industria?
- En fármacos, acelera el descubrimiento de ligandos y reducirá costos y tiempos de laboratorio iniciales.
- En materiales, facilita la ingeniería de nuevas baterías, catalizadores y componentes energéticos.
- En energías limpias, optimiza el diseño de electrolitos y sistemas de acumulación.
Con más de 100 millones de cálculos DFT, OMol25 representa la base más diversa jamás generada y un impulso clave para democratizar el desarrollo de modelos de IA en química avanzada.
OMol25 marca un hito en la convergencia entre la química computacional y la inteligencia artificial. Al liberar este vasto repositorio y los modelos entrenados, Meta y sus socios no solo aceleran la ciencia, sino que habilitan una nueva generación de soluciones tecnológicas, desde la salud hasta la energía. El futuro de la innovación molecular pasa por aquí.