Gemma 4 26B A4B

Code Multilingual Thinking Tool Calls Vision

Gemma 4 26B A4B ist Google DeepMinds Mixture-of-Experts-Modell mit 25,2 Milliarden Gesamtparametern, von denen nur 3,8 Milliarden pro Token aktiv sind, destilliert aus der Gemini-Forschung. Es belegt Platz 6 auf der Arena-AI-Rangliste und erreicht 88,3 auf AIME 2026 mit einem Bruchteil der Rechenleistung eines dichten Modells. Nativ multimodal verarbeitet es Text und Bilder mit integriertem Denkvermögen und Tool-Calling über ein 256K-Kontextfenster. Unter der Apache-2.0-Lizenz veröffentlicht, benötigt es bei Q4 nur etwa 16 GB VRAM und ist damit eine außergewöhnlich effiziente Wahl für selbstgehostete Bereitstellung auf Consumer-GPUs.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
FP16	Volle Präzision	47.04 GB	—
BF16	Volle Präzision	47.03 GB	—
Q8_0	Hoch	25.02 GB	—
Q8_K_XL	Hoch	25.95 GB	—
Q6_K	Hoch	21.33 GB	—
Q6_K_XL	Hoch	22.19 GB	—
Q5_K_M	Mittel	19.7 GB	—
Q5_K_S	Mittel	17.48 GB	—
Q5_K_XL	Mittel	19.81 GB	—
Q4_K_M	Mittel	15.64 GB	—
Q4_K_S	Mittel	15.27 GB	—
Q4_K_XL	Mittel	15.97 GB	—
MXFP4_MOE	Mittel	15.54 GB	—
IQ4_NL	Mittel	12.5 GB	—
IQ4_XS	Mittel	12.5 GB	—
Q3_K_M	Niedrig	11.67 GB	—
Q3_K_S	Niedrig	11.67 GB	—
Q3_K_XL	Niedrig	12.04 GB	—
IQ3_S	Niedrig	10.45 GB	—
IQ3_XXS	Niedrig	10.45 GB	—
Q2_K_XL	Niedrig	9.82 GB	—
IQ2_M	Niedrig	9.29 GB	—

Zuletzt aktualisiert: 29. April 2026