Gemma 4 12B

Con los límites de uso en Claude, Gemini y ChatGPT, cada vez más usuarios están migrando a modelos que se ejecutan en el ordenador. Aunque estos no alcanzan los niveles de Opus 4.8 o Gemini 3.1 Pro, lo cierto es que han avanzado de forma notable. Tal es el caso de Gemma 4 12B, un modelo de código abierto pensado para generar, completar o corregir código, así como también otras funciones que involucran razonamiento y capacidades multimodales.

Gemma 4 12B es una nueva variante de Gemma 4 que puede ejecutarse en cualquier ordenador con 16 GB de memoria RAM o VRAM. En términos de especificaciones encontramos un modelo multimodal con 12.000 millones de parámetros y una ventana de contexto de hasta 256.000 tokens. Esto último es importante si trabajas con proyectos con muchos archivos o documentación extensa, ya que no te dejará tirado a mitad del proceso.

Una de las características que presume Google de su nuevo modelo es que no utiliza encoders separados. En lugar de usar módulos independientes para procesar imágenes o audio, todo entra directamente al backbone del LLM. Esta capacidad de comprender imágenes y audio de forma nativa le permite reducir el consumo de memoria y la latencia.

Pero si lo que a ti te interesa es usarlo como alternativa a Claude Code, esta variante de Gemma 4 se defiende muy bien. Comparado con su versión anterior, Gemma 4 12B pasó del 29,1% al 80,0% en LiveCodeBench, un benchmark que mide la capacidad de generar código, verificar que corre sin errores y corregirlos sobre la marcha. Por otro lado, en Codeforces ELO llegó a 2.150, lo que lo coloca en territorio de programador competitivo experto.

Cómo instalar y usar Gemma 4 12B para desarrollo de software

Gemma 4 12B puede funcionar con 8 GB de RAM con cuantización a 4 bits, pero lo recomendable es duplicar esa cifra para una mayor calidad. Eso significa que puedes ejecutar el modelo con cualquier Mac con chip Apple Silicon de 16 GB de memoria unificada o con un PC con la misma cantidad de RAM o una GPU NVIDIA con 16 GB de VRAM o superior (como una RTX 3090 o modelos superiores).

Si quieres probarlo en tu PC pero no tienes experiencia corriendo modelos de forma local, puedes seguir esta guía que publicamos hace unos días para instalar LM Studio. Esta herramienta está pensada para usuarios menos técnicos.

Si eres desarrollador, Ollama es la mejor alternativa, ya que se integra bien con VS Code. También puedes combinarlo con OpenCode, que es la interfaz de terminal donde trabajas con él como asistente de código. Ollama gestiona la descarga y ejecución del modelo con un solo comando, solo necesitas descargarlo primero de la web oficial.

Una vez configurado, solo ejecuta este comando en la terminal

ollama run gemma4:12b

Ollama descargará los pesos del modelo y dejará disponible un servidor local compatible con la API. Eso significa que puedes conectar cualquier herramienta que ya uses habitualmente: Continue (extensión para VS Code), Aider, o cualquier cliente que soporte endpoints.

Una vez que el servidor está corriendo, en VS Code instala la extensión Continue y apunta el endpoint a http://localhost:11434. Desde ahí puedes pedirle al modelo que complete código, explique funciones, refactorice bloques o genere tests directamente desde el editor, sin salir del entorno de trabajo.

Para conectarlo a OpenCode, abre o crea un archivo ~/.config/opencode/opencode.jsonc y añade lo siguiente:

{
 "provider": {
   "ollama": {
     "npm": "@ai-sdk/openai-compatible",
     "options": {
       "baseURL": "http://localhost:11434/v1"
    },
     "models": {
       "gemma4:12b": {}
    }
  }
}
}

También necesitas añadir un placeholder en ~/.local/share/opencode/auth.json:

{
 "ollama": {
   "type": "api",
   "key": "ollama"
}
}

Ya que lo hiciste, reinicia OpenCode, ejecuta /models y cambia a ollama/gemma4:12b.

Un tema a considerar es que Ollama descarga el modelo de la memoria luego de cinco minutos de inactividad. Si no quieres tener que lidiar con una carga en frío cada vez que vuelves al terminal después de ese tiempo, solo necesitas añadir OLLAMA_KEEP_ALIVE="-1" en tu archivo ~/.zshrc.

Claude Code
Claude Code

Qué ventajas tiene Gemma 4 12B frente a Claude Code

Claude Code es una herramienta potente, pero depende de los servidores de Anthropic. Además, existe un coste asociado que deberás pagar cada mes, el cual puede dispararse de acuerdo con la complejidad de tus proyectos. En contraste, ejecutar Gemma 4 12B en tu ordenador no tiene coste por token.

Otro detalle a considerar es la privacidad. Al usar el modelo localmente, todo el código, capturas de pantalla o documentos privados no salen de tu ordenador. Para proyectos bajo NDA o código propietario esto es una gran ventaja, incluso para aquellos que simplemente no desean que sus datos pasen por terceros.

Aunque todo suena muy lindo, existe un pero si lo comparamos con la herramienta de Anthropic. Las tareas que implican refactorización completa de proyectos, decisiones arquitectónicas complejas o cadenas de herramientas muy largas siguen funcionando mejor con modelos en la nube como Claude Sonnet.

Lo que puedes hacer es combinar ambos y dejar que Gemma 4 12B se encargue de un 60 o 70% de las tareas rutinarias, como boilerplate, tests o explicación de errores. Las decisiones complejas las reservas para Claude y con ese enfoque híbrido, reducirás el gasto en APIs sin que tengas que renunciar a la calidad cuando lo necesites.

Seguir leyendo: Cómo usar Gemma 4 12B, la alternativa a Claude Code que te ayuda a programar gratis con IA

Ver fuente