Gemma 4 31B
Google
Code Multilingual Thinking Tool Calls Vision
Gemma 4 31B es el modelo denso insignia de Google DeepMind con 30.700 millones de parámetros, destilado de la investigación Gemini. Ocupa el puesto 3 en la clasificación Arena AI y alcanza 85,2 en MMLU-Pro, 89,2 en AIME 2026 y 80,0 en LiveCodeBench v6, con un ELO de Codeforces de 2.150. Nativamente multimodal, procesa texto e imágenes con capacidades integradas de razonamiento y llamada a herramientas en una ventana de contexto de 256K tokens. Publicado bajo licencia Apache 2.0, requiere solo unos 17 GB de VRAM en Q4, lo que lo convierte en una opción ideal para el despliegue autoalojado en GPUs de consumo de gama alta.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| FP16 | Precisión completa | 57.2 GB | — |
| BF16 | Precisión completa | 57.2 GB | — |
| Q8_0 | Alta | 30.39 GB | — |
| Q8_K_XL | Alta | 32.61 GB | — |
| Q6_K | Alta | 23.47 GB | — |
| Q6_K_XL | Alta | 25.63 GB | — |
| Q5_K_M | Media | 20.17 GB | — |
| Q5_K_S | Media | 19.67 GB | — |
| Q5_K_XL | Media | 20.39 GB | — |
| Q4_K_M | Media | 17.4 GB | — |
| Q4_K_S | Media | 16.2 GB | — |
| Q4_K_XL | Media | 17.48 GB | — |
| IQ4_NL | Media | 16.1 GB | — |
| IQ4_XS | Media | 15.25 GB | — |
| Q4_0 | Media | 16.15 GB | — |
| Q4_1 | Media | 17.81 GB | — |
| Q3_K_M | Baja | 13.72 GB | — |
| Q3_K_S | Baja | 12.3 GB | — |
| Q3_K_XL | Baja | 14.27 GB | — |
| IQ3_XXS | Baja | 11.02 GB | — |
| Q2_K_XL | Baja | 10.97 GB | — |
| IQ2_M | Baja | 10.01 GB | — |
| IQ2_XXS | Baja | 7.95 GB | — |
Última actualización: 29 de abril de 2026