Zum Inhalt springen

Gemma 4 26B A4B

Google
Code Multilingual Thinking Tool Calls Vision

Gemma 4 26B A4B ist Google DeepMinds Mixture-of-Experts-Modell mit 25,2 Milliarden Gesamtparametern, von denen nur 3,8 Milliarden pro Token aktiv sind, destilliert aus der Gemini-Forschung. Es belegt Platz 6 auf der Arena-AI-Rangliste und erreicht 88,3 auf AIME 2026 mit einem Bruchteil der Rechenleistung eines dichten Modells. Nativ multimodal verarbeitet es Text und Bilder mit integriertem Denkvermögen und Tool-Calling über ein 256K-Kontextfenster. Unter der Apache-2.0-Lizenz veröffentlicht, benötigt es bei Q4 nur etwa 16 GB VRAM und ist damit eine außergewöhnlich effiziente Wahl für selbstgehostete Bereitstellung auf Consumer-GPUs.

Hardwarekonfiguration
Optional — für präzise Bereitstellungsempfehlungen
Quantisierung Qualität Größe Eignung
FP16 Volle Präzision 47.04 GB
BF16 Volle Präzision 47.03 GB
Q8_0 Hoch 25.02 GB
Q8_K_XL Hoch 25.95 GB
Q6_K Hoch 21.33 GB
Q6_K_XL Hoch 22.19 GB
Q5_K_M Mittel 19.7 GB
Q5_K_S Mittel 17.48 GB
Q5_K_XL Mittel 19.81 GB
Q4_K_M Mittel 15.64 GB
Q4_K_S Mittel 15.27 GB
Q4_K_XL Mittel 15.97 GB
MXFP4_MOE Mittel 15.54 GB
IQ4_NL Mittel 12.5 GB
IQ4_XS Mittel 12.5 GB
Q3_K_M Niedrig 11.67 GB
Q3_K_S Niedrig 11.67 GB
Q3_K_XL Niedrig 12.04 GB
IQ3_S Niedrig 10.45 GB
IQ3_XXS Niedrig 10.45 GB
Q2_K_XL Niedrig 9.82 GB
IQ2_M Niedrig 9.29 GB
Zuletzt aktualisiert: 29. April 2026