GLM 4.7
Zai Org
Code Thinking Tool Calls
GLM-4.7 es un modelo "Mixture-of-Experts" de 358.340 millones de parámetros del equipo GLM en Zai Org, diseñado para programación avanzada, razonamiento agentivo y uso de herramientas. Enruta cada token a través de 8 de 160 expertos más 1 experto compartido, alcanzando rendimiento de vanguardia en benchmarks como SWE-bench y AIME con un coste de cómputo por token manejable. El modelo soporta generación de código, pensamiento extendido con razonamiento entrelazado y "tool calling" en inglés y chino. Con una ventana de contexto de 198K y "flash attention", está diseñado para flujos de trabajo agentivos multi-paso en despliegues GPU de gama alta.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| Q8_0 | Alta | 354.79 GB | — |
| Q8_K_XL | Alta | 367.72 GB | — |
| Q6_K | Alta | 274.17 GB | — |
| Q6_K_XL | Alta | 280.43 GB | — |
| Q5_K_M | Media | 236.81 GB | — |
| Q5_K_S | Media | 230.04 GB | — |
| Q5_K_XL | Media | 236.19 GB | — |
| Q4_K_M | Media | 201.58 GB | — |
| Q4_K_S | Media | 189.71 GB | — |
| Q4_K_XL | Media | 190.51 GB | — |
| Q4_0 | Media | 189.1 GB | — |
| Q4_1 | Media | 209.19 GB | — |
| Q3_K_M | Baja | 159.5 GB | — |
| Q3_K_S | Baja | 144.39 GB | — |
| Q3_K_XL | Baja | 147.83 GB | — |
| Q2_K | Baja | 122.14 GB | — |
| Q2_K_L | Baja | 122.31 GB | — |
| Q2_K_XL | Baja | 125.92 GB | — |
Última actualización: 5 de marzo de 2026