GLM 4.7 Flash
Zai Org
Code Thinking Tool Calls
GLM-4.7 Flash ist ein Mixture-of-Experts-Modell mit 31,22 Milliarden Parametern vom GLM-Team bei Zai Org, optimiert für schnelle Inferenz bei agentischen und Programmieraufgaben. Es aktiviert 4 von 64 Experten plus 1 gemeinsamen Experten pro Token und liefert starke Leistung in der 30B-Klasse bei niedrigen Rechenkosten. Das Modell unterstützt Codegenerierung, erweitertes Denken und Tool Calling auf Englisch und Chinesisch. Mit einem 198K-Kontextfenster und Flash Attention lässt es sich gut als GGUF quantisieren und eignet sich mit Speculative Decoding für selbstgehostete Deployments mit hohem Durchsatz.
Hardwarekonfiguration
Optional — für präzise Bereitstellungsempfehlungen
| Quantisierung | Qualität | Größe | Eignung |
|---|---|---|---|
| MXFP4_MOE | Sehr hoch | 15.8 GB | — |
| Q8_0 | Hoch | 29.66 GB | — |
| Q8_K_XL | Hoch | 32.71 GB | — |
| Q6_K | Hoch | 23 GB | — |
| Q6_K_XL | Hoch | 24.26 GB | — |
| Q5_K_M | Mittel | 19.94 GB | — |
| Q5_K_S | Mittel | 19.39 GB | — |
| Q5_K_XL | Mittel | 20.13 GB | — |
| Q4_K_M | Mittel | 17.05 GB | — |
| Q4_K_S | Mittel | 16.08 GB | — |
| Q4_K_XL | Mittel | 16.32 GB | — |
| Q4_0 | Mittel | 16.03 GB | — |
| Q4_1 | Mittel | 17.67 GB | — |
| Q3_K_M | Niedrig | 13.61 GB | — |
| Q3_K_S | Niedrig | 12.38 GB | — |
| Q3_K_XL | Niedrig | 12.86 GB | — |
| Q2_K_XL | Niedrig | 11.07 GB | — |
Zuletzt aktualisiert: 12. März 2026