Google ha desarrollado una técnica que podría convertir a Gemini en una verdadera bestia de la IA. El gigante tecnológico publicó los detalles de una investigación con la que busca mejorar la eficiencia y coste computacional de los modelos de lenguaje de gran escala. Conocida como Speculative Cascades (cascadas especulativas), este enfoque acelera la inferencia sin sacrificar la calidad.

De acuerdo con el documento técnico, las cascadas especulativas es una técnica híbrida que combina dos enfoques que hasta hace poco eran rivales: cascadas tradicionales y decodificación especulativa. Las primeras se basan en modelos pequeños y escalan cuando es necesario, mientras que la segunda permite que un modelo pequeño genere un borrador para que un modelo grande lo valide.

En términos prácticos, la técnica de cascadas especulativas de Google ayuda a que la IA gestione mejor los recursos de cómputo al usar un modelo pequeño, el cual propone un borrador de tokens que será verificado por un modelo grande en paralelo. El sistema utiliza una regla de aplazamiento flexible, la cual decide si el modelo pequeño puede manejar la consulta o si pasa la tarea a un modelo grande para mejorar la calidad.

Esta regla de aplazamiento es la clave de todo, puesto que elimina los cuellos de botella secuenciales de las cascadas estándar. El método admite respuestas útiles del modelo pequeño, aunque no coincidan exactamente con el modelo grande, algo que no se logra con la decodificación especulativa. Los investigadores señalan que la regla de aplazamiento es flexible y se puede adaptar a diferentes necesidades.

Pruebas de las cascadas especulativas de Google IAPruebas de las cascadas especulativas de Google IA

Gemini podría volverse más rápido con esta nueva técnica de IA desarrollada por Google

La compañía ya está probando las cascadas especulativas en tareas comunes de IA, como realizar resúmenes, traducir textos, escribir código fuente o resolver razonamientos matemáticos. Según Google, este enfoque ofrece una mejor calidad de respuestas a un coste computacional más bajo que cualquier otra técnica.

«Al repensar cómo las cascadas y la decodificación especulativa pueden funcionar juntas, las cascadas especulativas proporcionan una herramienta más poderosa y flexible para los desarrolladores», mencionaron los investigadores. «Este enfoque híbrido permite un control detallado sobre el equilibrio costo-calidad, allanando el camino para aplicaciones que son más inteligentes y rápidas».

Pruebas de las cascadas especulativas de Google IAPruebas de las cascadas especulativas de Google IA

Vale la pena mencionar que el nuevo método de Google se enfoca en la inferencia. La tecnológica busca que sus modelos ya entrenados generen respuestas más rápido y a un coste mucho menor. El enfoque difiere de otra técnica llamada Mixture of Experts (MoE) que utiliza un solo modelo con múltiples «expertos» internos para reducir el consumo computacional. Esta última ya es aprovechada por Microsoft en MAI-1 y otras IA chinas como DeepSeek o Qwen3.

Por el momento no hay detalles sobre su aplicación en Gemini. El enfoque de cascadas especulativas solo se ha probado en Gemma y T5 a un nivel experimental. A juzgar por los resultados en las pruebas de rendimiento, es razonable pensar que Google implementará esta técnica en su modelo más robusto en un futuro no muy lejano.

Ver fuente