GPT OSS 20B

Multilingual Thinking Tool Calls

GPT OSS 20B ist ein Mixture-of-Experts-Modell mit 21,51 Milliarden Parametern von OpenAI, optimiert für Reasoning mit niedriger Latenz auf Consumer-Hardware. Mit 32 Experten und 4 aktiven pro Token läuft es dank nativer MXFP4-Quantisierung in 16 GB Arbeitsspeicher. Das Modell bietet konfigurierbare Reasoning-Intensität, Function Calling und mehrsprachige Konversation in 12 Sprachen. Ein 128K-Kontextfenster und Flash Attention unterstützen Aufgaben mit langen Dokumenten, während die Apache-2.0-Lizenz und der geringe aktive Speicherbedarf es ideal für lokale und latenzempfindliche Deployments machen. GGUF-Quantisierungen stehen für lokale Inferenz mit llama.cpp bereit.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
FP16	Volle Präzision	12.85 GB	—
Q8_0	Hoch	11.28 GB	—
Q8_K_XL	Hoch	12.29 GB	—
Q6_K	Hoch	11.21 GB	—
Q6_K_XL	Hoch	11.21 GB	—
Q5_K_M	Mittel	10.91 GB	—
Q5_K_S	Mittel	10.91 GB	—
Q4_K_M	Mittel	10.83 GB	—
Q4_K_S	Mittel	10.82 GB	—
Q4_K_XL	Mittel	11.06 GB	—
Q4_0	Mittel	10.71 GB	—
Q4_1	Mittel	10.78 GB	—
Q3_K_M	Niedrig	10.72 GB	—
Q3_K_S	Niedrig	10.68 GB	—
Q2_K	Niedrig	10.68 GB	—
Q2_K_L	Niedrig	10.95 GB	—

Zuletzt aktualisiert: 24. März 2026