Gemma 4 26B A4B

Code Multilingual Thinking Tool Calls Vision

Gemma 4 26B A4B es el modelo Mixture-of-Experts de Google DeepMind con 25.200 millones de parámetros totales, pero solo 3.800 millones activos por token, destilado de la investigación Gemini. Ocupa el puesto 6 en la clasificación Arena AI y alcanza 88,3 en AIME 2026, ofreciendo razonamiento de nivel superior con una fracción del cómputo. Nativamente multimodal, procesa texto e imágenes con capacidades integradas de razonamiento y llamada a herramientas en una ventana de contexto de 256K tokens. Publicado bajo licencia Apache 2.0, requiere solo unos 16 GB de VRAM en Q4, lo que lo convierte en una opción excepcionalmente eficiente para el despliegue autoalojado en GPUs de consumo.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
FP16	Precisión completa	47.04 GB	—
BF16	Precisión completa	47.03 GB	—
Q8_0	Alta	25.02 GB	—
Q8_K_XL	Alta	25.95 GB	—
Q6_K	Alta	21.33 GB	—
Q6_K_XL	Alta	22.19 GB	—
Q5_K_M	Media	19.7 GB	—
Q5_K_S	Media	17.48 GB	—
Q5_K_XL	Media	19.81 GB	—
Q4_K_M	Media	15.64 GB	—
Q4_K_S	Media	15.27 GB	—
Q4_K_XL	Media	15.97 GB	—
MXFP4_MOE	Media	15.54 GB	—
IQ4_NL	Media	12.5 GB	—
IQ4_XS	Media	12.5 GB	—
Q3_K_M	Baja	11.67 GB	—
Q3_K_S	Baja	11.67 GB	—
Q3_K_XL	Baja	12.04 GB	—
IQ3_S	Baja	10.45 GB	—
IQ3_XXS	Baja	10.45 GB	—
Q2_K_XL	Baja	9.82 GB	—
IQ2_M	Baja	9.29 GB	—

Última actualización: 29 de abril de 2026