Salta ai contenuti

GPT OSS 20B

OpenAI
Multilingual Thinking Tool Calls

GPT OSS 20B è un modello "Mixture-of-Experts" da 21,51 miliardi di parametri di OpenAI, ottimizzato per il ragionamento a bassa latenza su hardware consumer. Con 32 esperti e 4 attivi per token, funziona in 16 GB di memoria grazie alla quantizzazione nativa MXFP4. Il modello offre intensità di ragionamento configurabile, "function calling" e conversazione multilingue in 12 lingue. Una finestra di contesto da 128K e il "flash attention" supportano attività su documenti lunghi, mentre la licenza Apache 2.0 e la ridotta impronta attiva lo rendono ideale per deployment locali e sensibili alla latenza. Sono disponibili quantizzazioni GGUF per l'inferenza locale con llama.cpp.

Configurazione hardware

Facoltativo — per raccomandazioni di distribuzione precise
Quantizzazione Qualità Dimensione Adeguatezza
FP16 Piena precisione 12.85 GB
Q8_0 Alta 11.28 GB
Q8_K_XL Alta 12.29 GB
Q6_K Alta 11.21 GB
Q6_K_XL Alta 11.21 GB
Q5_K_M Media 10.91 GB
Q5_K_S Media 10.91 GB
Q4_K_M Media 10.83 GB
Q4_K_S Media 10.82 GB
Q4_K_XL Media 11.06 GB
Q4_0 Media 10.71 GB
Q4_1 Media 10.78 GB
Q3_K_M Bassa 10.72 GB
Q3_K_S Bassa 10.68 GB
Q2_K Bassa 10.68 GB
Q2_K_L Bassa 10.95 GB
Ultimo aggiornamento: 5 marzo 2026