Gemma 4 E4B

Code Multilingual Thinking Tool Calls Vision

Gemma 4 E4B es el modelo denso edge Effective 4B de Google DeepMind, destilado de la investigación Gemini para el despliegue en dispositivos y sistemas embebidos. Alcanza 69,4 en MMLU-Pro, 42,5 en AIME 2026 y 52,0 en LiveCodeBench v6, ofreciendo un razonamiento sólido en un formato compacto. Nativamente multimodal, procesa texto, imágenes y audio con capacidades integradas de razonamiento y llamada a herramientas en una ventana de contexto de 128K tokens. Publicado bajo licencia Apache 2.0, requiere solo unos 5 GB de VRAM en Q4, lo que lo convierte en una opción excelente para el despliegue autoalojado en GPUs de consumo y dispositivos edge.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
FP16	Precisión completa	14.02 GB	—
BF16	Precisión completa	14.02 GB	—
Q8_0	Alta	7.48 GB	—
Q8_K_XL	Alta	8.06 GB	—
Q6_K	Alta	6.59 GB	—
Q6_K_XL	Alta	6.95 GB	—
Q5_K_M	Media	5.11 GB	—
Q5_K_S	Media	5.03 GB	—
Q5_K_XL	Media	6.19 GB	—
Q4_K_M	Media	4.97 GB	—
Q4_K_S	Media	4.51 GB	—
Q4_K_XL	Media	4.75 GB	—
IQ4_NL	Media	4.5 GB	—
IQ4_XS	Media	4.39 GB	—
Q4_0	Media	4.5 GB	—
Q4_1	Media	4.73 GB	—
Q3_K_M	Baja	3.78 GB	—
Q3_K_S	Baja	3.6 GB	—
Q3_K_XL	Baja	4.25 GB	—
IQ3_XXS	Baja	3.45 GB	—
Q2_K_XL	Baja	3.49 GB	—
IQ2_M	Baja	3.29 GB	—

Última actualización: 3 de abril de 2026