GPT OSS 120B

Multilingual Thinking Tool Calls

GPT OSS 120B ist ein Mixture-of-Experts-Modell mit 120,41 Milliarden Parametern von OpenAI, trainiert mit großangelegter Destillation und Reinforcement Learning für agentisches Reasoning. Mit 128 Experten und 4 aktiven pro Token passt es dank nativer MXFP4-Quantisierung der MoE-Gewichte auf eine einzelne 80-GB-GPU. Das Modell unterstützt konfigurierbare Reasoning-Intensität, Function Calling und mehrsprachige Konversation in 12 Sprachen. Das 128K-Kontextfenster und Flash Attention ermöglichen Workflows mit langen Dokumenten, während die Apache-2.0-Lizenz uneingeschränkte kommerzielle Nutzung erlaubt. GGUF-Quantisierungen stehen für selbstgehostete Inferenz mit llama.cpp bereit.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
FP16	Volle Präzision	60.88 GB	—
Q8_0	Hoch	59.03 GB	—
Q8_K_XL	Hoch	60.04 GB	—
Q6_K	Hoch	58.93 GB	—
Q6_K_XL	Hoch	58.93 GB	—
Q5_K_M	Mittel	58.57 GB	—
Q5_K_S	Mittel	58.56 GB	—
Q4_K_M	Mittel	58.46 GB	—
Q4_K_S	Mittel	58.45 GB	—
Q4_K_XL	Mittel	58.69 GB	—
Q4_0	Mittel	58.32 GB	—
Q4_1	Mittel	58.41 GB	—
Q3_K_M	Niedrig	58.32 GB	—
Q3_K_S	Niedrig	58.27 GB	—
Q2_K	Niedrig	58.27 GB	—
Q2_K_L	Niedrig	58.54 GB	—

Zuletzt aktualisiert: 29. April 2026