Gemma 4 26B A4B
Google
Code Multilingual Thinking Tool Calls Vision
Gemma 4 26B A4B es el modelo Mixture-of-Experts de Google DeepMind con 25.200 millones de parámetros totales, pero solo 3.800 millones activos por token, destilado de la investigación Gemini. Ocupa el puesto 6 en la clasificación Arena AI y alcanza 88,3 en AIME 2026, ofreciendo razonamiento de nivel superior con una fracción del cómputo. Nativamente multimodal, procesa texto e imágenes con capacidades integradas de razonamiento y llamada a herramientas en una ventana de contexto de 256K tokens. Publicado bajo licencia Apache 2.0, requiere solo unos 16 GB de VRAM en Q4, lo que lo convierte en una opción excepcionalmente eficiente para el despliegue autoalojado en GPUs de consumo.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| FP16 | Precisión completa | 47.04 GB | — |
| BF16 | Precisión completa | 47.03 GB | — |
| Q8_0 | Alta | 25.02 GB | — |
| Q8_K_XL | Alta | 25.95 GB | — |
| Q6_K | Alta | 21.33 GB | — |
| Q6_K_XL | Alta | 22.19 GB | — |
| Q5_K_M | Media | 19.7 GB | — |
| Q5_K_S | Media | 17.48 GB | — |
| Q5_K_XL | Media | 19.81 GB | — |
| Q4_K_M | Media | 15.64 GB | — |
| Q4_K_S | Media | 15.27 GB | — |
| Q4_K_XL | Media | 15.97 GB | — |
| MXFP4_MOE | Media | 15.54 GB | — |
| IQ4_NL | Media | 12.5 GB | — |
| IQ4_XS | Media | 12.5 GB | — |
| Q3_K_M | Baja | 11.67 GB | — |
| Q3_K_S | Baja | 11.67 GB | — |
| Q3_K_XL | Baja | 12.04 GB | — |
| IQ3_S | Baja | 10.45 GB | — |
| IQ3_XXS | Baja | 10.45 GB | — |
| Q2_K_XL | Baja | 9.82 GB | — |
| IQ2_M | Baja | 9.29 GB | — |
Última actualización: 29 de abril de 2026