GPT OSS 20B

Multilingual Thinking Tool Calls

GPT OSS 20B est un modèle "Mixture-of-Experts" de 21,51 milliards de paramètres d'OpenAI, optimisé pour le raisonnement à faible latence sur du matériel grand public. Avec 32 experts et 4 actifs par token, il fonctionne dans 16 Go de mémoire grâce à la quantification native MXFP4. Le modèle propose un effort de raisonnement configurable, l'appel de fonctions et la conversation multilingue dans 12 langues. Une fenêtre de contexte de 128K et le "flash attention" prennent en charge les tâches sur documents longs, tandis que la licence Apache 2.0 et la faible empreinte active le rendent idéal pour les déploiements locaux et sensibles à la latence. Des quantifications GGUF sont disponibles pour l'inférence locale avec llama.cpp.

Configuration matérielle

Fabricant

Produit

Plateforme

Famille

Modèle

VRAM

RAM système (Go) Facultatif — pour des recommandations de déploiement précises

Quantification	Qualité	Taille	Adéquation
FP16	Pleine précision	12.85 GB	—
Q8_0	Élevée	11.28 GB	—
Q8_K_XL	Élevée	12.29 GB	—
Q6_K	Élevée	11.21 GB	—
Q6_K_XL	Élevée	11.21 GB	—
Q5_K_M	Moyenne	10.91 GB	—
Q5_K_S	Moyenne	10.91 GB	—
Q4_K_M	Moyenne	10.83 GB	—
Q4_K_S	Moyenne	10.82 GB	—
Q4_K_XL	Moyenne	11.06 GB	—
Q4_0	Moyenne	10.71 GB	—
Q4_1	Moyenne	10.78 GB	—
Q3_K_M	Basse	10.72 GB	—
Q3_K_S	Basse	10.68 GB	—
Q2_K	Basse	10.68 GB	—
Q2_K_L	Basse	10.95 GB	—

Dernière mise à jour : 24 mars 2026