GLM 4.7 Flash

Code Thinking Tool Calls

GLM-4.7 Flash est un modèle "Mixture-of-Experts" de 31,22 milliards de paramètres de l'équipe GLM chez Zai Org, optimisé pour l'inférence rapide sur les tâches agentiques et de programmation. Il active 4 des 64 experts plus 1 expert partagé par jeton, offrant des performances élevées dans la classe 30B tout en maintenant des coûts de calcul réduits. Le modèle prend en charge la génération de code, la réflexion étendue et le "tool calling" en anglais et en chinois. Avec une fenêtre de contexte de 198K et le "flash attention", il se quantifie bien en GGUF et se prête au "speculative decoding" pour des déploiements auto-hébergés à haut débit.

Configuration matérielle

Fabricant

Produit

Plateforme

Famille

Modèle

VRAM

RAM système (Go) Facultatif — pour des recommandations de déploiement précises

Quantification	Qualité	Taille	Adéquation
MXFP4_MOE	Très élevée	15.8 GB	—
Q8_0	Élevée	29.66 GB	—
Q8_K_XL	Élevée	32.71 GB	—
Q6_K	Élevée	23 GB	—
Q6_K_XL	Élevée	24.26 GB	—
Q5_K_M	Moyenne	19.94 GB	—
Q5_K_S	Moyenne	19.39 GB	—
Q5_K_XL	Moyenne	20.13 GB	—
Q4_K_M	Moyenne	17.05 GB	—
Q4_K_S	Moyenne	16.08 GB	—
Q4_K_XL	Moyenne	16.32 GB	—
Q4_0	Moyenne	16.03 GB	—
Q4_1	Moyenne	17.67 GB	—
Q3_K_M	Basse	13.61 GB	—
Q3_K_S	Basse	12.38 GB	—
Q3_K_XL	Basse	12.86 GB	—
Q2_K_XL	Basse	11.07 GB	—

Dernière mise à jour : 12 mars 2026