Ir al contenido

Gemma 4 E4B

Google
Code Multilingual Thinking Tool Calls Vision

Gemma 4 E4B es el modelo denso edge Effective 4B de Google DeepMind, destilado de la investigación Gemini para el despliegue en dispositivos y sistemas embebidos. Alcanza 69,4 en MMLU-Pro, 42,5 en AIME 2026 y 52,0 en LiveCodeBench v6, ofreciendo un razonamiento sólido en un formato compacto. Nativamente multimodal, procesa texto, imágenes y audio con capacidades integradas de razonamiento y llamada a herramientas en una ventana de contexto de 128K tokens. Publicado bajo licencia Apache 2.0, requiere solo unos 5 GB de VRAM en Q4, lo que lo convierte en una opción excelente para el despliegue autoalojado en GPUs de consumo y dispositivos edge.

Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
Cuantización Calidad Tamaño Ajuste
FP16 Precisión completa 14.02 GB
BF16 Precisión completa 14.02 GB
Q8_0 Alta 7.48 GB
Q8_K_XL Alta 8.06 GB
Q6_K Alta 6.59 GB
Q6_K_XL Alta 6.95 GB
Q5_K_M Media 5.11 GB
Q5_K_S Media 5.03 GB
Q5_K_XL Media 6.19 GB
Q4_K_M Media 4.97 GB
Q4_K_S Media 4.51 GB
Q4_K_XL Media 4.75 GB
IQ4_NL Media 4.5 GB
IQ4_XS Media 4.39 GB
Q4_0 Media 4.5 GB
Q4_1 Media 4.73 GB
Q3_K_M Baja 3.78 GB
Q3_K_S Baja 3.6 GB
Q3_K_XL Baja 4.25 GB
IQ3_XXS Baja 3.45 GB
Q2_K_XL Baja 3.49 GB
IQ2_M Baja 3.29 GB
Última actualización: 3 de abril de 2026