GPT OSS 120B
OpenAI
Multilingual Thinking Tool Calls
GPT OSS 120B è un modello "Mixture-of-Experts" da 120,41 miliardi di parametri di OpenAI, addestrato con distillazione su larga scala e reinforcement learning per il ragionamento agentico. Con 128 esperti e 4 attivi per token, entra in una singola GPU da 80 GB grazie alla quantizzazione nativa MXFP4 dei pesi MoE. Il modello supporta intensità di ragionamento configurabile, "function calling" e conversazione multilingue in 12 lingue. La finestra di contesto da 128K e il "flash attention" consentono flussi di lavoro su documenti lunghi, con licenza Apache 2.0 per uso commerciale senza restrizioni. Sono disponibili quantizzazioni GGUF per l'inferenza self-hosted con llama.cpp.
Configurazione hardware
Facoltativo — per raccomandazioni di distribuzione precise
| Quantizzazione | Qualità | Dimensione | Adeguatezza |
|---|---|---|---|
| FP16 | Piena precisione | 60.88 GB | — |
| Q8_0 | Alta | 59.03 GB | — |
| Q8_K_XL | Alta | 60.04 GB | — |
| Q6_K | Alta | 58.93 GB | — |
| Q6_K_XL | Alta | 58.93 GB | — |
| Q5_K_M | Media | 58.57 GB | — |
| Q5_K_S | Media | 58.56 GB | — |
| Q4_K_M | Media | 58.46 GB | — |
| Q4_K_S | Media | 58.45 GB | — |
| Q4_K_XL | Media | 58.69 GB | — |
| Q4_0 | Media | 58.32 GB | — |
| Q4_1 | Media | 58.41 GB | — |
| Q3_K_M | Bassa | 58.32 GB | — |
| Q3_K_S | Bassa | 58.27 GB | — |
| Q2_K | Bassa | 58.27 GB | — |
| Q2_K_L | Bassa | 58.54 GB | — |
Ultimo aggiornamento: 5 marzo 2026