GPT OSS 20B
OpenAI
Multilingual Thinking Tool Calls
GPT OSS 20B est un modèle "Mixture-of-Experts" de 21,51 milliards de paramètres d'OpenAI, optimisé pour le raisonnement à faible latence sur du matériel grand public. Avec 32 experts et 4 actifs par token, il fonctionne dans 16 Go de mémoire grâce à la quantification native MXFP4. Le modèle propose un effort de raisonnement configurable, l'appel de fonctions et la conversation multilingue dans 12 langues. Une fenêtre de contexte de 128K et le "flash attention" prennent en charge les tâches sur documents longs, tandis que la licence Apache 2.0 et la faible empreinte active le rendent idéal pour les déploiements locaux et sensibles à la latence. Des quantifications GGUF sont disponibles pour l'inférence locale avec llama.cpp.
Configuration matérielle
Facultatif — pour des recommandations de déploiement précises
| Quantification | Qualité | Taille | Adéquation |
|---|---|---|---|
| FP16 | Pleine précision | 12.85 GB | — |
| Q8_0 | Élevée | 11.28 GB | — |
| Q8_K_XL | Élevée | 12.29 GB | — |
| Q6_K | Élevée | 11.21 GB | — |
| Q6_K_XL | Élevée | 11.21 GB | — |
| Q5_K_M | Moyenne | 10.91 GB | — |
| Q5_K_S | Moyenne | 10.91 GB | — |
| Q4_K_M | Moyenne | 10.83 GB | — |
| Q4_K_S | Moyenne | 10.82 GB | — |
| Q4_K_XL | Moyenne | 11.06 GB | — |
| Q4_0 | Moyenne | 10.71 GB | — |
| Q4_1 | Moyenne | 10.78 GB | — |
| Q3_K_M | Basse | 10.72 GB | — |
| Q3_K_S | Basse | 10.68 GB | — |
| Q2_K | Basse | 10.68 GB | — |
| Q2_K_L | Basse | 10.95 GB | — |
Dernière mise à jour : 5 mars 2026