GPT OSS 20B
OpenAI
Multilingual Thinking Tool Calls
GPT OSS 20B è un modello "Mixture-of-Experts" da 21,51 miliardi di parametri di OpenAI, ottimizzato per il ragionamento a bassa latenza su hardware consumer. Con 32 esperti e 4 attivi per token, funziona in 16 GB di memoria grazie alla quantizzazione nativa MXFP4. Il modello offre intensità di ragionamento configurabile, "function calling" e conversazione multilingue in 12 lingue. Una finestra di contesto da 128K e il "flash attention" supportano attività su documenti lunghi, mentre la licenza Apache 2.0 e la ridotta impronta attiva lo rendono ideale per deployment locali e sensibili alla latenza. Sono disponibili quantizzazioni GGUF per l'inferenza locale con llama.cpp.
Configurazione hardware
Facoltativo — per raccomandazioni di distribuzione precise
| Quantizzazione | Qualità | Dimensione | Adeguatezza |
|---|---|---|---|
| FP16 | Piena precisione | 12.85 GB | — |
| Q8_0 | Alta | 11.28 GB | — |
| Q8_K_XL | Alta | 12.29 GB | — |
| Q6_K | Alta | 11.21 GB | — |
| Q6_K_XL | Alta | 11.21 GB | — |
| Q5_K_M | Media | 10.91 GB | — |
| Q5_K_S | Media | 10.91 GB | — |
| Q4_K_M | Media | 10.83 GB | — |
| Q4_K_S | Media | 10.82 GB | — |
| Q4_K_XL | Media | 11.06 GB | — |
| Q4_0 | Media | 10.71 GB | — |
| Q4_1 | Media | 10.78 GB | — |
| Q3_K_M | Bassa | 10.72 GB | — |
| Q3_K_S | Bassa | 10.68 GB | — |
| Q2_K | Bassa | 10.68 GB | — |
| Q2_K_L | Bassa | 10.95 GB | — |
Ultimo aggiornamento: 5 marzo 2026