Salta ai contenuti

GLM 4.7 Flash

Zai Org
Code Thinking Tool Calls

GLM-4.7 Flash è un modello "Mixture-of-Experts" da 31,22 miliardi di parametri del team GLM di Zai Org, ottimizzato per l'inferenza rapida su compiti agentici e di programmazione. Attiva 4 dei 64 esperti più 1 esperto condiviso per token, offrendo prestazioni elevate nella classe 30B con costi di calcolo contenuti. Il modello supporta generazione di codice, pensiero esteso e "tool calling" in inglese e cinese. Con una finestra di contesto da 198K e "flash attention", si quantizza bene in formato GGUF e si presta al "speculative decoding" per deployment self-hosted ad alto throughput.

Configurazione hardware

Facoltativo — per raccomandazioni di distribuzione precise
Quantizzazione Qualità Dimensione Adeguatezza
MXFP4_MOE Molto alta 15.8 GB
Q8_0 Alta 29.66 GB
Q8_K_XL Alta 32.71 GB
Q6_K Alta 23 GB
Q6_K_XL Alta 24.26 GB
Q5_K_M Media 19.94 GB
Q5_K_S Media 19.39 GB
Q5_K_XL Media 20.13 GB
Q4_K_M Media 17.05 GB
Q4_K_S Media 16.08 GB
Q4_K_XL Media 16.32 GB
Q4_0 Media 16.03 GB
Q4_1 Media 17.67 GB
Q3_K_M Bassa 13.61 GB
Q3_K_S Bassa 12.38 GB
Q3_K_XL Bassa 12.86 GB
Q2_K_XL Bassa 11.07 GB
Ultimo aggiornamento: 12 marzo 2026