Gemma 4 31B

Code Multilingual Thinking Tool Calls Vision

Gemma 4 31B ist Google DeepMinds führendes offenes Dense-Modell mit 30,7 Milliarden Parametern, destilliert aus der Gemini-Forschung. Es belegt Platz 3 auf der Arena-AI-Rangliste und erreicht 85,2 auf MMLU-Pro, 89,2 auf AIME 2026 sowie 80,0 auf LiveCodeBench v6 bei einem Codeforces-ELO von 2.150. Das nativ multimodale Modell verarbeitet Text und Bilder mit integriertem Denkvermögen und Tool-Calling über ein 256K-Kontextfenster. Unter der Apache-2.0-Lizenz veröffentlicht, benötigt es bei Q4 nur etwa 17 GB VRAM und eignet sich hervorragend für selbstgehostete Bereitstellung auf High-End-Consumer-GPUs.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
FP16	Volle Präzision	57.2 GB	—
BF16	Volle Präzision	57.2 GB	—
Q8_0	Hoch	30.39 GB	—
Q8_K_XL	Hoch	32.61 GB	—
Q6_K	Hoch	23.47 GB	—
Q6_K_XL	Hoch	25.63 GB	—
Q5_K_M	Mittel	20.17 GB	—
Q5_K_S	Mittel	19.67 GB	—
Q5_K_XL	Mittel	20.39 GB	—
Q4_K_M	Mittel	17.4 GB	—
Q4_K_S	Mittel	16.2 GB	—
Q4_K_XL	Mittel	17.48 GB	—
IQ4_NL	Mittel	16.1 GB	—
IQ4_XS	Mittel	15.25 GB	—
Q4_0	Mittel	16.15 GB	—
Q4_1	Mittel	17.81 GB	—
Q3_K_M	Niedrig	13.72 GB	—
Q3_K_S	Niedrig	12.3 GB	—
Q3_K_XL	Niedrig	14.27 GB	—
IQ3_XXS	Niedrig	11.02 GB	—
Q2_K_XL	Niedrig	10.97 GB	—
IQ2_M	Niedrig	10.01 GB	—
IQ2_XXS	Niedrig	7.95 GB	—

Zuletzt aktualisiert: 29. April 2026