Salta ai contenuti

GPT OSS 120B

OpenAI
Multilingual Thinking Tool Calls

GPT OSS 120B è un modello "Mixture-of-Experts" da 120,41 miliardi di parametri di OpenAI, addestrato con distillazione su larga scala e reinforcement learning per il ragionamento agentico. Con 128 esperti e 4 attivi per token, entra in una singola GPU da 80 GB grazie alla quantizzazione nativa MXFP4 dei pesi MoE. Il modello supporta intensità di ragionamento configurabile, "function calling" e conversazione multilingue in 12 lingue. La finestra di contesto da 128K e il "flash attention" consentono flussi di lavoro su documenti lunghi, con licenza Apache 2.0 per uso commerciale senza restrizioni. Sono disponibili quantizzazioni GGUF per l'inferenza self-hosted con llama.cpp.

Configurazione hardware

Facoltativo — per raccomandazioni di distribuzione precise
Quantizzazione Qualità Dimensione Adeguatezza
FP16 Piena precisione 60.88 GB
Q8_0 Alta 59.03 GB
Q8_K_XL Alta 60.04 GB
Q6_K Alta 58.93 GB
Q6_K_XL Alta 58.93 GB
Q5_K_M Media 58.57 GB
Q5_K_S Media 58.56 GB
Q4_K_M Media 58.46 GB
Q4_K_S Media 58.45 GB
Q4_K_XL Media 58.69 GB
Q4_0 Media 58.32 GB
Q4_1 Media 58.41 GB
Q3_K_M Bassa 58.32 GB
Q3_K_S Bassa 58.27 GB
Q2_K Bassa 58.27 GB
Q2_K_L Bassa 58.54 GB
Ultimo aggiornamento: 5 marzo 2026