GLM 4.7 Flash
Zai Org
Code Thinking Tool Calls
GLM-4.7 Flash es un modelo "Mixture-of-Experts" de 31.220 millones de parámetros del equipo GLM en Zai Org, optimizado para inferencia rápida en tareas agentivas y de programación. Activa 4 de 64 expertos más 1 experto compartido por token, ofreciendo un rendimiento sólido en la clase 30B con bajos costes de cómputo. El modelo soporta generación de código, pensamiento extendido y "tool calling" en inglés y chino. Con una ventana de contexto de 198K y "flash attention", se cuantiza bien a GGUF y se adapta al "speculative decoding" para despliegues autoalojados de alto rendimiento.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| MXFP4_MOE | Muy alta | 15.8 GB | — |
| Q8_0 | Alta | 29.66 GB | — |
| Q8_K_XL | Alta | 32.71 GB | — |
| Q6_K | Alta | 23 GB | — |
| Q6_K_XL | Alta | 24.26 GB | — |
| Q5_K_M | Media | 19.94 GB | — |
| Q5_K_S | Media | 19.39 GB | — |
| Q5_K_XL | Media | 20.13 GB | — |
| Q4_K_M | Media | 17.05 GB | — |
| Q4_K_S | Media | 16.08 GB | — |
| Q4_K_XL | Media | 16.32 GB | — |
| Q4_0 | Media | 16.03 GB | — |
| Q4_1 | Media | 17.67 GB | — |
| Q3_K_M | Baja | 13.61 GB | — |
| Q3_K_S | Baja | 12.38 GB | — |
| Q3_K_XL | Baja | 12.86 GB | — |
| Q2_K_XL | Baja | 11.07 GB | — |
Última actualización: 12 de marzo de 2026