GLM 4.7

Code Thinking Tool Calls

GLM-4.7 es un modelo "Mixture-of-Experts" de 358.340 millones de parámetros del equipo GLM en Zai Org, diseñado para programación avanzada, razonamiento agentivo y uso de herramientas. Enruta cada token a través de 8 de 160 expertos más 1 experto compartido, alcanzando rendimiento de vanguardia en benchmarks como SWE-bench y AIME con un coste de cómputo por token manejable. El modelo soporta generación de código, pensamiento extendido con razonamiento entrelazado y "tool calling" en inglés y chino. Con una ventana de contexto de 198K y "flash attention", está diseñado para flujos de trabajo agentivos multi-paso en despliegues GPU de gama alta.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
Q8_0	Alta	354.79 GB	—
Q8_K_XL	Alta	367.72 GB	—
Q6_K	Alta	274.17 GB	—
Q6_K_XL	Alta	280.43 GB	—
Q5_K_M	Media	236.81 GB	—
Q5_K_S	Media	230.04 GB	—
Q5_K_XL	Media	236.19 GB	—
Q4_K_M	Media	201.58 GB	—
Q4_K_S	Media	189.71 GB	—
Q4_K_XL	Media	190.51 GB	—
Q4_0	Media	189.1 GB	—
Q4_1	Media	209.19 GB	—
Q3_K_M	Baja	159.5 GB	—
Q3_K_S	Baja	144.39 GB	—
Q3_K_XL	Baja	147.83 GB	—
Q2_K	Baja	122.14 GB	—
Q2_K_L	Baja	122.31 GB	—
Q2_K_XL	Baja	125.92 GB	—

Última actualización: 29 de abril de 2026