GPT OSS 120B

Multilingual Thinking Tool Calls

GPT OSS 120B è un modello "Mixture-of-Experts" da 120,41 miliardi di parametri di OpenAI, addestrato con distillazione su larga scala e reinforcement learning per il ragionamento agentico. Con 128 esperti e 4 attivi per token, entra in una singola GPU da 80 GB grazie alla quantizzazione nativa MXFP4 dei pesi MoE. Il modello supporta intensità di ragionamento configurabile, "function calling" e conversazione multilingue in 12 lingue. La finestra di contesto da 128K e il "flash attention" consentono flussi di lavoro su documenti lunghi, con licenza Apache 2.0 per uso commerciale senza restrizioni. Sono disponibili quantizzazioni GGUF per l'inferenza self-hosted con llama.cpp.

Configurazione hardware

Produttore

Prodotto

Piattaforma

Famiglia

Modello

VRAM

RAM di sistema (GB) Facoltativo — per raccomandazioni di distribuzione precise

Quantizzazione	Qualità	Dimensione	Adeguatezza
FP16	Piena precisione	60.88 GB	—
Q8_0	Alta	59.03 GB	—
Q8_K_XL	Alta	60.04 GB	—
Q6_K	Alta	58.93 GB	—
Q6_K_XL	Alta	58.93 GB	—
Q5_K_M	Media	58.57 GB	—
Q5_K_S	Media	58.56 GB	—
Q4_K_M	Media	58.46 GB	—
Q4_K_S	Media	58.45 GB	—
Q4_K_XL	Media	58.69 GB	—
Q4_0	Media	58.32 GB	—
Q4_1	Media	58.41 GB	—
Q3_K_M	Bassa	58.32 GB	—
Q3_K_S	Bassa	58.27 GB	—
Q2_K	Bassa	58.27 GB	—
Q2_K_L	Bassa	58.54 GB	—

Ultimo aggiornamento: 29 aprile 2026