DiffusionGemma: Google presenta un modelo que genera texto hasta 4 veces más rápido que los LLM tradicionales

La nueva propuesta experimental de Google abandona la generación palabra por palabra y apuesta por la difusión de texto. El resultado: más de 1.000 tokens por segundo y nuevas posibilidades para aplicaciones locales de inteligencia artificial.

La carrera por construir modelos de inteligencia artificial más rápidos acaba de sumar un nuevo protagonista. Google presentó DiffusionGemma, un modelo experimental de código abierto que promete revolucionar la forma en que se genera texto mediante una técnica conocida como «difusión», capaz de producir contenido hasta cuatro veces más rápido que los modelos de lenguaje tradicionales.

El lanzamiento representa un nuevo paso dentro de la familia Gemma, la línea de modelos abiertos de Google, y busca resolver uno de los principales desafíos que enfrentan desarrolladores y empresas que ejecutan inteligencia artificial de manera local: la latencia.

A diferencia de los modelos de lenguaje convencionales, que generan texto de manera secuencial palabra por palabra o token por token, DiffusionGemma produce bloques completos de texto simultáneamente. Según Google, esta arquitectura permite alcanzar velocidades superiores a los 1.000 tokens por segundo utilizando una GPU NVIDIA H100 y más de 700 tokens por segundo sobre una NVIDIA GeForce RTX 5090.

Un cambio radical en la forma de generar texto

La mayoría de los modelos actuales, incluidos los populares asistentes basados en grandes modelos de lenguaje (LLM), funcionan como una máquina de escribir: generan una palabra detrás de otra siguiendo una secuencia lineal.

DiffusionGemma adopta un enfoque completamente distinto. Inspirado en los modelos de difusión utilizados para generar imágenes con IA, comienza con una especie de «lienzo» compuesto por tokens aleatorios y realiza múltiples refinamientos sucesivos hasta obtener un texto coherente.

Google explica que el sistema puede generar bloques completos de hasta 256 tokens en paralelo durante cada paso de inferencia.

Esta capacidad permite que cada token tenga visibilidad sobre el resto del contenido mientras se está generando, algo que los modelos autoregresivos tradicionales no pueden hacer.

Más velocidad, pero con concesiones

El modelo fue desarrollado a partir de la familia Gemma 4 y de las investigaciones realizadas por Google en Gemini Diffusion.

DiffusionGemma utiliza una arquitectura Mixture of Experts (MoE) de 26.000 millones de parámetros totales, aunque durante la inferencia activa únicamente 3.800 millones de parámetros. Gracias a esta eficiencia, puede ejecutarse en GPUs de consumo avanzadas con apenas 18 GB de memoria VRAM cuando se encuentra cuantizado.

Entre las principales ventajas destacadas por Google aparecen:

Generación de texto hasta cuatro veces más rápida.
Inferencia optimizada para ejecución local.
Capacidad de edición en línea de documentos.
Mejor rendimiento en tareas no lineales.
Corrección iterativa de errores durante la generación.

Sin embargo, la compañía también reconoce limitaciones importantes.

«Debido a que prioriza la velocidad y la generación paralela, la calidad general de las respuestas de DiffusionGemma es inferior a la de Gemma 4 estándar», señala Google en la documentación oficial.

Por esa razón, la empresa recomienda seguir utilizando los modelos Gemma tradicionales para aplicaciones productivas donde la calidad del resultado sea crítica.

Una IA especialmente útil para programación y ciencia

Uno de los aspectos más llamativos del modelo es su capacidad de atención bidireccional.

Al analizar simultáneamente todos los elementos del texto que está generando, DiffusionGemma resulta particularmente eficaz para tareas complejas donde diferentes partes de la respuesta dependen unas de otras.

Google menciona varios casos de uso potenciales:

Edición avanzada de texto.
Completado de código fuente.
Generación de secuencias de aminoácidos.
Resolución de problemas matemáticos.
Construcción de estructuras complejas de programación.

Como ejemplo, la compañía mostró una versión ajustada mediante fine-tuning por la startup Unsloth capaz de resolver sudokus, una tarea que suele resultar especialmente difícil para los modelos autoregresivos debido a la dependencia entre múltiples posiciones futuras y pasadas del tablero.

Código abierto y disponible para desarrolladores

Google decidió publicar DiffusionGemma bajo licencia Apache 2.0, una de las más permisivas de la industria.

Los pesos del modelo ya pueden descargarse desde Hugging Face y cuentan con soporte para herramientas ampliamente utilizadas por desarrolladores como:

Hugging Face Transformers.
MLX.
vLLM.
NVIDIA NeMo.
Unsloth.

Además, Google confirmó que el soporte oficial para llama.cpp llegará próximamente.

La empresa también trabajó junto a NVIDIA para optimizar el rendimiento sobre distintas generaciones de hardware, incluyendo GPUs GeForce RTX 4090, RTX 5090 y sistemas empresariales basados en arquitecturas Hopper y Blackwell.

Un experimento que podría cambiar el futuro de los LLM

Aunque Google presenta DiffusionGemma como un proyecto experimental orientado principalmente a investigadores y desarrolladores, el lanzamiento podría tener implicancias mucho más amplias para la industria.

Durante años, la generación de texto basada en difusión fue considerada una promesa difícil de materializar a gran escala. Con DiffusionGemma, Google busca demostrar que esta tecnología puede ofrecer ventajas reales en velocidad, especialmente en entornos locales y aplicaciones interactivas donde cada milisegundo cuenta.

Si el enfoque logra evolucionar manteniendo niveles competitivos de calidad, la industria podría estar frente a una nueva generación de modelos capaces de replantear la forma en que se construyen asistentes, agentes de IA y herramientas de productividad en tiempo real.

Colección de categorías

DiffusionGemma: Google presenta un modelo que genera texto hasta 4 veces más rápido que los LLM tradicionales

La nueva propuesta experimental de Google abandona la generación palabra por palabra y apuesta por la difusión de texto. El resultado: más de 1.000 tokens por segundo y nuevas posibilidades para aplicaciones locales de inteligencia artificial.

Un cambio radical en la forma de generar texto

Más velocidad, pero con concesiones

Una IA especialmente útil para programación y ciencia

Código abierto y disponible para desarrolladores

Un experimento que podría cambiar el futuro de los LLM

Deja una respuesta Cancelar la respuesta

Colección de categorías

La nueva propuesta experimental de Google abandona la generación palabra por palabra y apuesta por la difusión de texto. El resultado: más de 1.000 tokens por segundo y nuevas posibilidades para aplicaciones locales de inteligencia artificial.

Un cambio radical en la forma de generar texto

Más velocidad, pero con concesiones

Una IA especialmente útil para programación y ciencia

Código abierto y disponible para desarrolladores

Un experimento que podría cambiar el futuro de los LLM

Deja una respuesta Cancelar la respuesta

Noticias Relacionadas