GLM 4.7 Flash

Code Thinking Tool Calls

GLM-4.7 Flash es un modelo "Mixture-of-Experts" de 31.220 millones de parámetros del equipo GLM en Zai Org, optimizado para inferencia rápida en tareas agentivas y de programación. Activa 4 de 64 expertos más 1 experto compartido por token, ofreciendo un rendimiento sólido en la clase 30B con bajos costes de cómputo. El modelo soporta generación de código, pensamiento extendido y "tool calling" en inglés y chino. Con una ventana de contexto de 198K y "flash attention", se cuantiza bien a GGUF y se adapta al "speculative decoding" para despliegues autoalojados de alto rendimiento.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
Q8_0	Alta	29.66 GB	—
Q8_K_XL	Alta	32.71 GB	—
Q6_K	Alta	23 GB	—
Q6_K_XL	Alta	24.26 GB	—
Q5_K_M	Media	19.94 GB	—
Q5_K_S	Media	19.39 GB	—
Q5_K_XL	Media	20.13 GB	—
Q4_K_M	Media	17.05 GB	—
Q4_K_S	Media	16.08 GB	—
Q4_K_XL	Media	16.32 GB	—
MXFP4_MOE	Media	15.8 GB	—
Q4_0	Media	16.03 GB	—
Q4_1	Media	17.67 GB	—
Q3_K_M	Baja	13.61 GB	—
Q3_K_S	Baja	12.38 GB	—
Q3_K_XL	Baja	12.86 GB	—
Q2_K_XL	Baja	11.07 GB	—

Última actualización: 24 de marzo de 2026