Qwen3 32B

Code Multilingual Thinking Tool Calls

Qwen3 32B ist ein dichter Transformer mit 32 Milliarden Parametern vom Qwen-Team bei Alibaba, der Denkfaehigkeiten mit starker Codegenerierung, Tool Calling und mehrsprachiger Unterstuetzung kombiniert. Er besetzt eine mittlere Parameterklasse, die Schlussfolgerungstiefe mit praktischen Deployment-Anforderungen ausbalanciert und viele groessere Modelle bei Mathematik- und Logik-Benchmarks uebertrifft. Das Modell unterstuetzt 14 Sprachen, darunter Englisch, Chinesisch und Arabisch. Mit einem 40K-Kontextfenster und Flash Attention passt es bei Q4-Quantisierung auf eine einzelne High-End-GPU fuer selbstgehostete Inferenz.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
Q8_0	Hoch	32.43 GB	—
Q8_K_XL	Hoch	36.77 GB	—
Q6_K	Hoch	25.04 GB	—
Q6_K_XL	Hoch	26.97 GB	—
Q5_K_M	Mittel	21.62 GB	—
Q5_K_S	Mittel	21.08 GB	—
Q5_K_XL	Mittel	21.64 GB	—
Q4_K_M	Mittel	18.4 GB	—
Q4_K_S	Mittel	17.48 GB	—
Q4_K_XL	Mittel	18.65 GB	—
Q4_0	Mittel	17.42 GB	—
Q4_1	Mittel	19.22 GB	—
Q3_K_M	Niedrig	14.87 GB	—
Q3_K_S	Niedrig	13.4 GB	—
Q3_K_XL	Niedrig	15.28 GB	—
Q2_K	Niedrig	11.5 GB	—
Q2_K_L	Niedrig	11.67 GB	—
Q2_K_XL	Niedrig	11.92 GB	—

Zuletzt aktualisiert: 24. März 2026