Ir al contenido

GLM 4.7 Flash

Zai Org
Code Thinking Tool Calls

GLM-4.7 Flash es un modelo "Mixture-of-Experts" de 31.220 millones de parámetros del equipo GLM en Zai Org, optimizado para inferencia rápida en tareas agentivas y de programación. Activa 4 de 64 expertos más 1 experto compartido por token, ofreciendo un rendimiento sólido en la clase 30B con bajos costes de cómputo. El modelo soporta generación de código, pensamiento extendido y "tool calling" en inglés y chino. Con una ventana de contexto de 198K y "flash attention", se cuantiza bien a GGUF y se adapta al "speculative decoding" para despliegues autoalojados de alto rendimiento.

Configuración de hardware

Opcional — para recomendaciones de despliegue precisas
Cuantización Calidad Tamaño Ajuste
MXFP4_MOE Muy alta 15.8 GB
Q8_0 Alta 29.66 GB
Q8_K_XL Alta 32.71 GB
Q6_K Alta 23 GB
Q6_K_XL Alta 24.26 GB
Q5_K_M Media 19.94 GB
Q5_K_S Media 19.39 GB
Q5_K_XL Media 20.13 GB
Q4_K_M Media 17.05 GB
Q4_K_S Media 16.08 GB
Q4_K_XL Media 16.32 GB
Q4_0 Media 16.03 GB
Q4_1 Media 17.67 GB
Q3_K_M Baja 13.61 GB
Q3_K_S Baja 12.38 GB
Q3_K_XL Baja 12.86 GB
Q2_K_XL Baja 11.07 GB
Última actualización: 12 de marzo de 2026