El nuevo modelo abierto de Google DiffusionGemma genera texto a partir del ruido en lugar de palabra por palabra

11 de junio de 2026·The Decoder

Google lanza DiffusionGemma, un modelo experimental de 26B parámetros que genera texto mediante difusión, alcanzando 1.000 tokens/s pero con menor calidad.

Google apuesta por la difusión para generar texto cuatro veces más rápido

Google ha lanzado DiffusionGemma, un modelo experimental que cambia radicalmente la forma de generar texto: en lugar del enfoque tradicional token por token, utiliza difusión, la misma técnica que emplean herramientas como Stable Diffusion o DALL-E para crear imágenes a partir de ruido.

¿Qué ha pasado?

DiffusionGemma es un modelo de 26 mil millones de parámetros que aplica procesos de difusión a la generación de lenguaje. A diferencia de los modelos autoregresivos convencionales, que construyen textos palabra por palabra de manera secuencial, este sistema convierte ruido aleatorio en texto coherente mediante iteraciones progresivas.

Según pruebas realizadas por Nvidia, el modelo alcanza aproximadamente 1.000 tokens por segundo en una única GPU H100, lo que representa una velocidad cuatro veces superior a la de modelos autoregresivos de tamaño comparable. Esta mejora en velocidad de inferencia supone un avance significativo en términos de eficiencia computacional.

Sin embargo, Google reconoce que la calidad del texto generado es inferior a la de los modelos tradicionales. Por este motivo, la compañía posiciona DiffusionGemma como una herramienta experimental dirigida específicamente a desarrolladores e investigadores, no como un producto para usuarios finales. El modelo se distribuye de forma abierta, permitiendo que la comunidad técnica explore sus capacidades y limitaciones.

Por qué importa

La velocidad de inferencia es uno de los cuellos de botella más importantes en aplicaciones de IA generativa. Multiplicar por cuatro la rapidez de generación podría transformar casos de uso que requieren respuestas en tiempo real: chatbots con alta concurrencia, sistemas de autocompletado, generación masiva de contenido o aplicaciones interactivas.

Para desarrolladores y empresas, un modelo más rápido significa menores costes de infraestructura y capacidad para atender más peticiones simultáneas con el mismo hardware. Una GPU H100 procesando a 1.000 tokens/s podría sustituir el trabajo de cuatro GPUs con modelos tradicionales, reduciendo tanto el gasto energético como los requisitos de equipamiento.

El compromiso entre velocidad y calidad plantea un dilema estratégico: ¿merece la pena sacrificar precisión por eficiencia? En escenarios donde la perfección lingüística no es crítica —resúmenes automáticos, moderación de contenido, clasificación de texto— este equilibrio podría resultar ventajoso. Google deja esta exploración en manos de la comunidad de código abierto.

Característica	DiffusionGemma	Modelos autoregresivos tradicionales
Parámetros	26 mil millones	Similar (~20-30B)
Velocidad (H100)	~1.000 tokens/s	~250 tokens/s
Método	Difusión (paralelo)	Token por token (secuencial)
Calidad de salida	Inferior	Superior
Disponibilidad	Abierto (experimental)	Variable

Contexto

Los modelos de lenguaje autoregresivos han dominado la IA generativa desde GPT-2. Su funcionamiento secuencial —predecir la siguiente palabra basándose en las anteriores— garantiza coherencia pero limita la velocidad, ya que cada token depende del anterior.

La difusión, exitosa en generación de imágenes desde 2022, trabaja refinando ruido en múltiples pasos paralelos. Aplicar este principio al texto es un desafío técnico mayor debido a la naturaleza discreta del lenguaje frente a la continuidad visual. Otros laboratorios como Stability AI y equipos académicos han experimentado con enfoques similares, pero DiffusionGemma representa la primera apuesta pública de un gigante tecnológico con un modelo de esta escala.