Aller au contenu

GPT OSS 20B

OpenAI
Multilingual Thinking Tool Calls

GPT OSS 20B est un modèle "Mixture-of-Experts" de 21,51 milliards de paramètres d'OpenAI, optimisé pour le raisonnement à faible latence sur du matériel grand public. Avec 32 experts et 4 actifs par token, il fonctionne dans 16 Go de mémoire grâce à la quantification native MXFP4. Le modèle propose un effort de raisonnement configurable, l'appel de fonctions et la conversation multilingue dans 12 langues. Une fenêtre de contexte de 128K et le "flash attention" prennent en charge les tâches sur documents longs, tandis que la licence Apache 2.0 et la faible empreinte active le rendent idéal pour les déploiements locaux et sensibles à la latence. Des quantifications GGUF sont disponibles pour l'inférence locale avec llama.cpp.

Configuration matérielle

Facultatif — pour des recommandations de déploiement précises
Quantification Qualité Taille Adéquation
FP16 Pleine précision 12.85 GB
Q8_0 Élevée 11.28 GB
Q8_K_XL Élevée 12.29 GB
Q6_K Élevée 11.21 GB
Q6_K_XL Élevée 11.21 GB
Q5_K_M Moyenne 10.91 GB
Q5_K_S Moyenne 10.91 GB
Q4_K_M Moyenne 10.83 GB
Q4_K_S Moyenne 10.82 GB
Q4_K_XL Moyenne 11.06 GB
Q4_0 Moyenne 10.71 GB
Q4_1 Moyenne 10.78 GB
Q3_K_M Basse 10.72 GB
Q3_K_S Basse 10.68 GB
Q2_K Basse 10.68 GB
Q2_K_L Basse 10.95 GB
Dernière mise à jour : 5 mars 2026