Aller au contenu

GLM 4.7 Flash

Zai Org
Code Thinking Tool Calls

GLM-4.7 Flash est un modèle "Mixture-of-Experts" de 31,22 milliards de paramètres de l'équipe GLM chez Zai Org, optimisé pour l'inférence rapide sur les tâches agentiques et de programmation. Il active 4 des 64 experts plus 1 expert partagé par jeton, offrant des performances élevées dans la classe 30B tout en maintenant des coûts de calcul réduits. Le modèle prend en charge la génération de code, la réflexion étendue et le "tool calling" en anglais et en chinois. Avec une fenêtre de contexte de 198K et le "flash attention", il se quantifie bien en GGUF et se prête au "speculative decoding" pour des déploiements auto-hébergés à haut débit.

Configuration matérielle

Facultatif — pour des recommandations de déploiement précises
Quantification Qualité Taille Adéquation
MXFP4_MOE Très élevée 15.8 GB
Q8_0 Élevée 29.66 GB
Q8_K_XL Élevée 32.71 GB
Q6_K Élevée 23 GB
Q6_K_XL Élevée 24.26 GB
Q5_K_M Moyenne 19.94 GB
Q5_K_S Moyenne 19.39 GB
Q5_K_XL Moyenne 20.13 GB
Q4_K_M Moyenne 17.05 GB
Q4_K_S Moyenne 16.08 GB
Q4_K_XL Moyenne 16.32 GB
Q4_0 Moyenne 16.03 GB
Q4_1 Moyenne 17.67 GB
Q3_K_M Basse 13.61 GB
Q3_K_S Basse 12.38 GB
Q3_K_XL Basse 12.86 GB
Q2_K_XL Basse 11.07 GB
Dernière mise à jour : 12 mars 2026