Zum Inhalt springen

GPT OSS 20B

OpenAI
Multilingual Thinking Tool Calls

GPT OSS 20B ist ein Mixture-of-Experts-Modell mit 21,51 Milliarden Parametern von OpenAI, optimiert für Reasoning mit niedriger Latenz auf Consumer-Hardware. Mit 32 Experten und 4 aktiven pro Token läuft es dank nativer MXFP4-Quantisierung in 16 GB Arbeitsspeicher. Das Modell bietet konfigurierbare Reasoning-Intensität, Function Calling und mehrsprachige Konversation in 12 Sprachen. Ein 128K-Kontextfenster und Flash Attention unterstützen Aufgaben mit langen Dokumenten, während die Apache-2.0-Lizenz und der geringe aktive Speicherbedarf es ideal für lokale und latenzempfindliche Deployments machen. GGUF-Quantisierungen stehen für lokale Inferenz mit llama.cpp bereit.

Hardwarekonfiguration

Optional — für präzise Bereitstellungsempfehlungen
Quantisierung Qualität Größe Eignung
FP16 Volle Präzision 12.85 GB
Q8_0 Hoch 11.28 GB
Q8_K_XL Hoch 12.29 GB
Q6_K Hoch 11.21 GB
Q6_K_XL Hoch 11.21 GB
Q5_K_M Mittel 10.91 GB
Q5_K_S Mittel 10.91 GB
Q4_K_M Mittel 10.83 GB
Q4_K_S Mittel 10.82 GB
Q4_K_XL Mittel 11.06 GB
Q4_0 Mittel 10.71 GB
Q4_1 Mittel 10.78 GB
Q3_K_M Niedrig 10.72 GB
Q3_K_S Niedrig 10.68 GB
Q2_K Niedrig 10.68 GB
Q2_K_L Niedrig 10.95 GB
Zuletzt aktualisiert: 5. März 2026