Gemma 4 E2B
Google
Code Multilingual Thinking Tool Calls Vision
Gemma 4 E2B es el modelo denso ultracompacto Effective 2B de Google DeepMind, destilado de la investigación Gemini para teléfonos y entornos con recursos limitados. Alcanza 60,0 en MMLU-Pro, 37,5 en AIME 2026 y 44,0 en LiveCodeBench v6, aportando razonamiento genuino en el formato más pequeño de la familia. Nativamente multimodal, procesa texto, imágenes y audio con capacidades integradas de razonamiento y llamada a herramientas en una ventana de contexto de 128K tokens. Publicado bajo licencia Apache 2.0, requiere solo unos 3 GB de VRAM en Q4, lo que lo convierte en una opción ideal para el despliegue autoalojado en teléfonos, portátiles y dispositivos edge de muy bajo consumo.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| FP16 | Precisión completa | 8.67 GB | — |
| BF16 | Precisión completa | 8.67 GB | — |
| Q8_0 | Alta | 4.63 GB | — |
| Q8_K_XL | Alta | 4.91 GB | — |
| Q6_K | Alta | 4.19 GB | — |
| Q6_K_XL | Alta | 4.39 GB | — |
| Q5_K_M | Media | 3.13 GB | — |
| Q5_K_S | Media | 3.09 GB | — |
| Q5_K_XL | Media | 4 GB | — |
| Q4_K_M | Media | 2.89 GB | — |
| Q4_K_S | Media | 2.83 GB | — |
| Q4_K_XL | Media | 2.96 GB | — |
| IQ4_NL | Media | 2.83 GB | — |
| IQ4_XS | Media | 2.78 GB | — |
| Q4_0 | Media | 2.83 GB | — |
| Q4_1 | Media | 2.94 GB | — |
| Q3_K_M | Baja | 2.36 GB | — |
| Q3_K_S | Baja | 2.28 GB | — |
| Q3_K_XL | Baja | 2.71 GB | — |
| IQ3_XXS | Baja | 2.21 GB | — |
| Q2_K_XL | Baja | 2.24 GB | — |
| IQ2_M | Baja | 2.13 GB | — |
Última actualización: 3 de abril de 2026