Zum Inhalt springen

GPT OSS 120B

OpenAI
Multilingual Thinking Tool Calls

GPT OSS 120B ist ein Mixture-of-Experts-Modell mit 120,41 Milliarden Parametern von OpenAI, trainiert mit großangelegter Destillation und Reinforcement Learning für agentisches Reasoning. Mit 128 Experten und 4 aktiven pro Token passt es dank nativer MXFP4-Quantisierung der MoE-Gewichte auf eine einzelne 80-GB-GPU. Das Modell unterstützt konfigurierbare Reasoning-Intensität, Function Calling und mehrsprachige Konversation in 12 Sprachen. Das 128K-Kontextfenster und Flash Attention ermöglichen Workflows mit langen Dokumenten, während die Apache-2.0-Lizenz uneingeschränkte kommerzielle Nutzung erlaubt. GGUF-Quantisierungen stehen für selbstgehostete Inferenz mit llama.cpp bereit.

Hardwarekonfiguration

Optional — für präzise Bereitstellungsempfehlungen
Quantisierung Qualität Größe Eignung
FP16 Volle Präzision 60.88 GB
Q8_0 Hoch 59.03 GB
Q8_K_XL Hoch 60.04 GB
Q6_K Hoch 58.93 GB
Q6_K_XL Hoch 58.93 GB
Q5_K_M Mittel 58.57 GB
Q5_K_S Mittel 58.56 GB
Q4_K_M Mittel 58.46 GB
Q4_K_S Mittel 58.45 GB
Q4_K_XL Mittel 58.69 GB
Q4_0 Mittel 58.32 GB
Q4_1 Mittel 58.41 GB
Q3_K_M Niedrig 58.32 GB
Q3_K_S Niedrig 58.27 GB
Q2_K Niedrig 58.27 GB
Q2_K_L Niedrig 58.54 GB
Zuletzt aktualisiert: 5. März 2026