GLM 4.7

Code Thinking Tool Calls

GLM-4.7 ist ein Mixture-of-Experts-Modell mit 358,34 Milliarden Parametern vom GLM-Team bei Zai Org, entwickelt für fortgeschrittenes Programmieren, agentisches Reasoning und Toolnutzung. Es leitet jeden Token durch 8 von 160 Experten plus 1 gemeinsamen Experten und erreicht Spitzenleistung bei Benchmarks wie SWE-bench und AIME bei überschaubarem Rechenaufwand pro Token. Das Modell unterstützt Codegenerierung, erweitertes Denken mit verschränktem Reasoning und Tool Calling auf Englisch und Chinesisch. Mit einem 198K-Kontextfenster und Flash Attention ist es für mehrstufige agentische Workflows auf High-End-GPU-Deployments ausgelegt.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
Q8_0	Hoch	354.79 GB	—
Q8_K_XL	Hoch	367.72 GB	—
Q6_K	Hoch	274.17 GB	—
Q6_K_XL	Hoch	280.43 GB	—
Q5_K_M	Mittel	236.81 GB	—
Q5_K_S	Mittel	230.04 GB	—
Q5_K_XL	Mittel	236.19 GB	—
Q4_K_M	Mittel	201.58 GB	—
Q4_K_S	Mittel	189.71 GB	—
Q4_K_XL	Mittel	190.51 GB	—
Q4_0	Mittel	189.1 GB	—
Q4_1	Mittel	209.19 GB	—
Q3_K_M	Niedrig	159.5 GB	—
Q3_K_S	Niedrig	144.39 GB	—
Q3_K_XL	Niedrig	147.83 GB	—
Q2_K	Niedrig	122.14 GB	—
Q2_K_L	Niedrig	122.31 GB	—
Q2_K_XL	Niedrig	125.92 GB	—

Zuletzt aktualisiert: 5. März 2026