Google ha presentado DiffusionGemma, un modelo experimental de inteligencia artificial que cambia la forma como se genera el texto. A diferencia de los modelos actuales, este no construye las respuestas palabra por palabra, sino que lo hace en bloques completos, y eso lo vuelve mucho más rápido.

De acuerdo con una publicación en su blog, DiffusionGemma puede alcanzar hasta cuatro veces más velocidad de inferencia respecto a Gemma 4 y otros modelos autorregresivos convencionales. En una GPU dedicada como la NVIDIA H100, el modelo supera los 1.000 tokens por segundo, que equivale a diez veces la velocidad de GPT-5.4 mini.

Para entender qué hace diferente a DiffusionGemma de otras IA, tenemos que partir desde lo más básico. La mayoría de los modelos de lenguaje funcionan como una máquina de escribir, es decir, generan un token tras otro, de izquierda a derecha, esperando a que cada pieza esté lista para pasar a la siguiente.

Este proceso es eficiente en la nube, donde miles de peticiones se agrupan para aprovechar el hardware al máximo. Pero si ejecutas un modelo en tu propio ordenador para uso individual, esa GPU potente que tienes pasa gran parte del tiempo sin hacer nada, esperando el siguiente token.

Cómo funciona DiffusionGemma

DiffusionGemma rompe con ese esquema. En lugar de generar los tokens en secuencia, redacta un bloque completo de 256 tokens a la vez, haciendo que el procesador reciba un trabajo mucho más grande de una sola vez. Esto sería como pasar de una máquina de escribir a una imprenta que estampa toda la página de golpe, aprovechando todo el hardware que tienes a tu disposición.

El modelo aplica un proceso de refinamiento iterativo, comenzando con un bloque de texto aleatorio que va haciendo pasadas hasta afinar el resultado. DiffusionGemma opera de forma parecida a modelos de imágenes como DALL-E 3 y Midjourney, que parten de ruido visual y lo van refinando hasta obtener una imagen nítida.

Otra característica relevante es su atención bidireccional. Cuando genera esos 256 tokens en paralelo, cada uno puede relacionarse con todos los demás. Eso abre posibilidades interesantes para tareas donde los modelos autorregresivos tienen problemas, como rellenar huecos en código, editar fragmentos en línea o trabajar con estructuras no lineales.

En cuanto al tamaño, DiffusionGemma es un modelo Mixture of Experts de 26.000 millones de parámetros totales, pero durante la inferencia solo activa 3.800 millones. Traducido al hardware, el modelo cabe en GPUs de consumo con 18 GB de VRAM, como la RTX 5090 o la RTX 4090, lo que lo hace accesible sin necesidad de infraestructura de servidor.

Cuándo usarlo (y cuándo no)

DiffusionGemma ya está disponible en Hugging Face bajo licencia Apache 2.0, lo que significa que puedes descargarlo y usarlo libremente. Google trabaja con herramientas como vLLM, MLX y Hugging Face Transformers para facilitar la integración, y el soporte oficial para llama.cpp llegará próximamente.

Ahora bien, hay que ser honesto con sus limitaciones. DiffusionGemma prioriza velocidad sobre calidad de salida, y en ese sentido, el propio Google reconoce que los modelos Gemma 4 estándar siguen siendo superiores para producción. Este modelo brilla en entornos locales para tareas de edición en tiempo real, prototipado rápido o experimentación con flujos no lineales.

Para el usuario entusiasta que ya tiene una GPU decente y disfruta probando modelos en su ordenador, DiffusionGemma es una de las propuestas más interesantes que ha llegado en lo que va de año.

Seguir leyendo: Google lanza una IA que genera texto diez veces más rápido que ChatGPT (y es gratis)

Ver fuente