Gemma 4 E2B

Code Multilingual Thinking Tool Calls Vision

Gemma 4 E2B es el modelo denso ultracompacto Effective 2B de Google DeepMind, destilado de la investigación Gemini para teléfonos y entornos con recursos limitados. Alcanza 60,0 en MMLU-Pro, 37,5 en AIME 2026 y 44,0 en LiveCodeBench v6, aportando razonamiento genuino en el formato más pequeño de la familia. Nativamente multimodal, procesa texto, imágenes y audio con capacidades integradas de razonamiento y llamada a herramientas en una ventana de contexto de 128K tokens. Publicado bajo licencia Apache 2.0, requiere solo unos 3 GB de VRAM en Q4, lo que lo convierte en una opción ideal para el despliegue autoalojado en teléfonos, portátiles y dispositivos edge de muy bajo consumo.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
FP16	Precisión completa	8.67 GB	—
BF16	Precisión completa	8.67 GB	—
Q8_0	Alta	4.63 GB	—
Q8_K_XL	Alta	4.91 GB	—
Q6_K	Alta	4.19 GB	—
Q6_K_XL	Alta	4.39 GB	—
Q5_K_M	Media	3.13 GB	—
Q5_K_S	Media	3.09 GB	—
Q5_K_XL	Media	4 GB	—
Q4_K_M	Media	2.89 GB	—
Q4_K_S	Media	2.83 GB	—
Q4_K_XL	Media	2.96 GB	—
IQ4_NL	Media	2.83 GB	—
IQ4_XS	Media	2.78 GB	—
Q4_0	Media	2.83 GB	—
Q4_1	Media	2.94 GB	—
Q3_K_M	Baja	2.36 GB	—
Q3_K_S	Baja	2.28 GB	—
Q3_K_XL	Baja	2.71 GB	—
IQ3_XXS	Baja	2.21 GB	—
Q2_K_XL	Baja	2.24 GB	—
IQ2_M	Baja	2.13 GB	—

Última actualización: 3 de abril de 2026