GPT OSS 120B
OpenAI
Multilingual Thinking Tool Calls
GPT OSS 120B ist ein Mixture-of-Experts-Modell mit 120,41 Milliarden Parametern von OpenAI, trainiert mit großangelegter Destillation und Reinforcement Learning für agentisches Reasoning. Mit 128 Experten und 4 aktiven pro Token passt es dank nativer MXFP4-Quantisierung der MoE-Gewichte auf eine einzelne 80-GB-GPU. Das Modell unterstützt konfigurierbare Reasoning-Intensität, Function Calling und mehrsprachige Konversation in 12 Sprachen. Das 128K-Kontextfenster und Flash Attention ermöglichen Workflows mit langen Dokumenten, während die Apache-2.0-Lizenz uneingeschränkte kommerzielle Nutzung erlaubt. GGUF-Quantisierungen stehen für selbstgehostete Inferenz mit llama.cpp bereit.
Hardwarekonfiguration
Optional — für präzise Bereitstellungsempfehlungen
| Quantisierung | Qualität | Größe | Eignung |
|---|---|---|---|
| FP16 | Volle Präzision | 60.88 GB | — |
| Q8_0 | Hoch | 59.03 GB | — |
| Q8_K_XL | Hoch | 60.04 GB | — |
| Q6_K | Hoch | 58.93 GB | — |
| Q6_K_XL | Hoch | 58.93 GB | — |
| Q5_K_M | Mittel | 58.57 GB | — |
| Q5_K_S | Mittel | 58.56 GB | — |
| Q4_K_M | Mittel | 58.46 GB | — |
| Q4_K_S | Mittel | 58.45 GB | — |
| Q4_K_XL | Mittel | 58.69 GB | — |
| Q4_0 | Mittel | 58.32 GB | — |
| Q4_1 | Mittel | 58.41 GB | — |
| Q3_K_M | Niedrig | 58.32 GB | — |
| Q3_K_S | Niedrig | 58.27 GB | — |
| Q2_K | Niedrig | 58.27 GB | — |
| Q2_K_L | Niedrig | 58.54 GB | — |
Zuletzt aktualisiert: 5. März 2026