GLM 4.7 Flash

Code Thinking Tool Calls

GLM-4.7 Flash ist ein Mixture-of-Experts-Modell mit 31,22 Milliarden Parametern vom GLM-Team bei Zai Org, optimiert für schnelle Inferenz bei agentischen und Programmieraufgaben. Es aktiviert 4 von 64 Experten plus 1 gemeinsamen Experten pro Token und liefert starke Leistung in der 30B-Klasse bei niedrigen Rechenkosten. Das Modell unterstützt Codegenerierung, erweitertes Denken und Tool Calling auf Englisch und Chinesisch. Mit einem 198K-Kontextfenster und Flash Attention lässt es sich gut als GGUF quantisieren und eignet sich mit Speculative Decoding für selbstgehostete Deployments mit hohem Durchsatz.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
MXFP4_MOE	Sehr hoch	15.8 GB	—
Q8_0	Hoch	29.66 GB	—
Q8_K_XL	Hoch	32.71 GB	—
Q6_K	Hoch	23 GB	—
Q6_K_XL	Hoch	24.26 GB	—
Q5_K_M	Mittel	19.94 GB	—
Q5_K_S	Mittel	19.39 GB	—
Q5_K_XL	Mittel	20.13 GB	—
Q4_K_M	Mittel	17.05 GB	—
Q4_K_S	Mittel	16.08 GB	—
Q4_K_XL	Mittel	16.32 GB	—
Q4_0	Mittel	16.03 GB	—
Q4_1	Mittel	17.67 GB	—
Q3_K_M	Niedrig	13.61 GB	—
Q3_K_S	Niedrig	12.38 GB	—
Q3_K_XL	Niedrig	12.86 GB	—
Q2_K_XL	Niedrig	11.07 GB	—

Zuletzt aktualisiert: 12. März 2026