GLM 4.7 Flash
Zai Org
Code Thinking Tool Calls
GLM-4.7 Flash è un modello "Mixture-of-Experts" da 31,22 miliardi di parametri del team GLM di Zai Org, ottimizzato per l'inferenza rapida su compiti agentici e di programmazione. Attiva 4 dei 64 esperti più 1 esperto condiviso per token, offrendo prestazioni elevate nella classe 30B con costi di calcolo contenuti. Il modello supporta generazione di codice, pensiero esteso e "tool calling" in inglese e cinese. Con una finestra di contesto da 198K e "flash attention", si quantizza bene in formato GGUF e si presta al "speculative decoding" per deployment self-hosted ad alto throughput.
Configurazione hardware
Facoltativo — per raccomandazioni di distribuzione precise
| Quantizzazione | Qualità | Dimensione | Adeguatezza |
|---|---|---|---|
| MXFP4_MOE | Molto alta | 15.8 GB | — |
| Q8_0 | Alta | 29.66 GB | — |
| Q8_K_XL | Alta | 32.71 GB | — |
| Q6_K | Alta | 23 GB | — |
| Q6_K_XL | Alta | 24.26 GB | — |
| Q5_K_M | Media | 19.94 GB | — |
| Q5_K_S | Media | 19.39 GB | — |
| Q5_K_XL | Media | 20.13 GB | — |
| Q4_K_M | Media | 17.05 GB | — |
| Q4_K_S | Media | 16.08 GB | — |
| Q4_K_XL | Media | 16.32 GB | — |
| Q4_0 | Media | 16.03 GB | — |
| Q4_1 | Media | 17.67 GB | — |
| Q3_K_M | Bassa | 13.61 GB | — |
| Q3_K_S | Bassa | 12.38 GB | — |
| Q3_K_XL | Bassa | 12.86 GB | — |
| Q2_K_XL | Bassa | 11.07 GB | — |
Ultimo aggiornamento: 12 marzo 2026