GLM 4.7 Flash

Code Thinking Tool Calls

GLM-4.7 Flash è un modello "Mixture-of-Experts" da 31,22 miliardi di parametri del team GLM di Zai Org, ottimizzato per l'inferenza rapida su compiti agentici e di programmazione. Attiva 4 dei 64 esperti più 1 esperto condiviso per token, offrendo prestazioni elevate nella classe 30B con costi di calcolo contenuti. Il modello supporta generazione di codice, pensiero esteso e "tool calling" in inglese e cinese. Con una finestra di contesto da 198K e "flash attention", si quantizza bene in formato GGUF e si presta al "speculative decoding" per deployment self-hosted ad alto throughput.

Configurazione hardware

Produttore

Prodotto

Piattaforma

Famiglia

Modello

VRAM

RAM di sistema (GB) Facoltativo — per raccomandazioni di distribuzione precise

Quantizzazione	Qualità	Dimensione	Adeguatezza
MXFP4_MOE	Molto alta	15.8 GB	—
Q8_0	Alta	29.66 GB	—
Q8_K_XL	Alta	32.71 GB	—
Q6_K	Alta	23 GB	—
Q6_K_XL	Alta	24.26 GB	—
Q5_K_M	Media	19.94 GB	—
Q5_K_S	Media	19.39 GB	—
Q5_K_XL	Media	20.13 GB	—
Q4_K_M	Media	17.05 GB	—
Q4_K_S	Media	16.08 GB	—
Q4_K_XL	Media	16.32 GB	—
Q4_0	Media	16.03 GB	—
Q4_1	Media	17.67 GB	—
Q3_K_M	Bassa	13.61 GB	—
Q3_K_S	Bassa	12.38 GB	—
Q3_K_XL	Bassa	12.86 GB	—
Q2_K_XL	Bassa	11.07 GB	—

Ultimo aggiornamento: 12 marzo 2026