GLM 4.7 Flash
Zai Org
Code Thinking Tool Calls
GLM-4.7 Flash est un modèle "Mixture-of-Experts" de 31,22 milliards de paramètres de l'équipe GLM chez Zai Org, optimisé pour l'inférence rapide sur les tâches agentiques et de programmation. Il active 4 des 64 experts plus 1 expert partagé par jeton, offrant des performances élevées dans la classe 30B tout en maintenant des coûts de calcul réduits. Le modèle prend en charge la génération de code, la réflexion étendue et le "tool calling" en anglais et en chinois. Avec une fenêtre de contexte de 198K et le "flash attention", il se quantifie bien en GGUF et se prête au "speculative decoding" pour des déploiements auto-hébergés à haut débit.
Configuration matérielle
Facultatif — pour des recommandations de déploiement précises
| Quantification | Qualité | Taille | Adéquation |
|---|---|---|---|
| MXFP4_MOE | Très élevée | 15.8 GB | — |
| Q8_0 | Élevée | 29.66 GB | — |
| Q8_K_XL | Élevée | 32.71 GB | — |
| Q6_K | Élevée | 23 GB | — |
| Q6_K_XL | Élevée | 24.26 GB | — |
| Q5_K_M | Moyenne | 19.94 GB | — |
| Q5_K_S | Moyenne | 19.39 GB | — |
| Q5_K_XL | Moyenne | 20.13 GB | — |
| Q4_K_M | Moyenne | 17.05 GB | — |
| Q4_K_S | Moyenne | 16.08 GB | — |
| Q4_K_XL | Moyenne | 16.32 GB | — |
| Q4_0 | Moyenne | 16.03 GB | — |
| Q4_1 | Moyenne | 17.67 GB | — |
| Q3_K_M | Basse | 13.61 GB | — |
| Q3_K_S | Basse | 12.38 GB | — |
| Q3_K_XL | Basse | 12.86 GB | — |
| Q2_K_XL | Basse | 11.07 GB | — |
Dernière mise à jour : 12 mars 2026