GPT OSS 20B

Multilingual Thinking Tool Calls

GPT OSS 20B è un modello "Mixture-of-Experts" da 21,51 miliardi di parametri di OpenAI, ottimizzato per il ragionamento a bassa latenza su hardware consumer. Con 32 esperti e 4 attivi per token, funziona in 16 GB di memoria grazie alla quantizzazione nativa MXFP4. Il modello offre intensità di ragionamento configurabile, "function calling" e conversazione multilingue in 12 lingue. Una finestra di contesto da 128K e il "flash attention" supportano attività su documenti lunghi, mentre la licenza Apache 2.0 e la ridotta impronta attiva lo rendono ideale per deployment locali e sensibili alla latenza. Sono disponibili quantizzazioni GGUF per l'inferenza locale con llama.cpp.

Configurazione hardware

Produttore

Prodotto

Piattaforma

Famiglia

Modello

VRAM

RAM di sistema (GB) Facoltativo — per raccomandazioni di distribuzione precise

Quantizzazione	Qualità	Dimensione	Adeguatezza
FP16	Piena precisione	12.85 GB	—
Q8_0	Alta	11.28 GB	—
Q8_K_XL	Alta	12.29 GB	—
Q6_K	Alta	11.21 GB	—
Q6_K_XL	Alta	11.21 GB	—
Q5_K_M	Media	10.91 GB	—
Q5_K_S	Media	10.91 GB	—
Q4_K_M	Media	10.83 GB	—
Q4_K_S	Media	10.82 GB	—
Q4_K_XL	Media	11.06 GB	—
Q4_0	Media	10.71 GB	—
Q4_1	Media	10.78 GB	—
Q3_K_M	Bassa	10.72 GB	—
Q3_K_S	Bassa	10.68 GB	—
Q2_K	Bassa	10.68 GB	—
Q2_K_L	Bassa	10.95 GB	—

Ultimo aggiornamento: 24 marzo 2026