Zum Inhalt springen

GLM 4.7 Flash

Zai Org
Code Thinking Tool Calls

GLM-4.7 Flash ist ein Mixture-of-Experts-Modell mit 31,22 Milliarden Parametern vom GLM-Team bei Zai Org, optimiert für schnelle Inferenz bei agentischen und Programmieraufgaben. Es aktiviert 4 von 64 Experten plus 1 gemeinsamen Experten pro Token und liefert starke Leistung in der 30B-Klasse bei niedrigen Rechenkosten. Das Modell unterstützt Codegenerierung, erweitertes Denken und Tool Calling auf Englisch und Chinesisch. Mit einem 198K-Kontextfenster und Flash Attention lässt es sich gut als GGUF quantisieren und eignet sich mit Speculative Decoding für selbstgehostete Deployments mit hohem Durchsatz.

Hardwarekonfiguration

Optional — für präzise Bereitstellungsempfehlungen
Quantisierung Qualität Größe Eignung
MXFP4_MOE Sehr hoch 15.8 GB
Q8_0 Hoch 29.66 GB
Q8_K_XL Hoch 32.71 GB
Q6_K Hoch 23 GB
Q6_K_XL Hoch 24.26 GB
Q5_K_M Mittel 19.94 GB
Q5_K_S Mittel 19.39 GB
Q5_K_XL Mittel 20.13 GB
Q4_K_M Mittel 17.05 GB
Q4_K_S Mittel 16.08 GB
Q4_K_XL Mittel 16.32 GB
Q4_0 Mittel 16.03 GB
Q4_1 Mittel 17.67 GB
Q3_K_M Niedrig 13.61 GB
Q3_K_S Niedrig 12.38 GB
Q3_K_XL Niedrig 12.86 GB
Q2_K_XL Niedrig 11.07 GB
Zuletzt aktualisiert: 12. März 2026