GPT OSS 20B
OpenAI
Multilingual Thinking Tool Calls
GPT OSS 20B ist ein Mixture-of-Experts-Modell mit 21,51 Milliarden Parametern von OpenAI, optimiert für Reasoning mit niedriger Latenz auf Consumer-Hardware. Mit 32 Experten und 4 aktiven pro Token läuft es dank nativer MXFP4-Quantisierung in 16 GB Arbeitsspeicher. Das Modell bietet konfigurierbare Reasoning-Intensität, Function Calling und mehrsprachige Konversation in 12 Sprachen. Ein 128K-Kontextfenster und Flash Attention unterstützen Aufgaben mit langen Dokumenten, während die Apache-2.0-Lizenz und der geringe aktive Speicherbedarf es ideal für lokale und latenzempfindliche Deployments machen. GGUF-Quantisierungen stehen für lokale Inferenz mit llama.cpp bereit.
Hardwarekonfiguration
Optional — für präzise Bereitstellungsempfehlungen
| Quantisierung | Qualität | Größe | Eignung |
|---|---|---|---|
| FP16 | Volle Präzision | 12.85 GB | — |
| Q8_0 | Hoch | 11.28 GB | — |
| Q8_K_XL | Hoch | 12.29 GB | — |
| Q6_K | Hoch | 11.21 GB | — |
| Q6_K_XL | Hoch | 11.21 GB | — |
| Q5_K_M | Mittel | 10.91 GB | — |
| Q5_K_S | Mittel | 10.91 GB | — |
| Q4_K_M | Mittel | 10.83 GB | — |
| Q4_K_S | Mittel | 10.82 GB | — |
| Q4_K_XL | Mittel | 11.06 GB | — |
| Q4_0 | Mittel | 10.71 GB | — |
| Q4_1 | Mittel | 10.78 GB | — |
| Q3_K_M | Niedrig | 10.72 GB | — |
| Q3_K_S | Niedrig | 10.68 GB | — |
| Q2_K | Niedrig | 10.68 GB | — |
| Q2_K_L | Niedrig | 10.95 GB | — |
Zuletzt aktualisiert: 5. März 2026