GPT OSS 120B
OpenAI
Multilingual Thinking Tool Calls
GPT OSS 120B est un modèle "Mixture-of-Experts" de 120,41 milliards de paramètres d'OpenAI, entraîné par distillation à grande échelle et apprentissage par renforcement pour le raisonnement agentique. Avec 128 experts et 4 actifs par token, il tient sur un seul GPU de 80 Go grâce à la quantification native MXFP4 des poids MoE. Le modèle prend en charge un effort de raisonnement configurable, l'appel de fonctions et la conversation multilingue dans 12 langues. Sa fenêtre de contexte de 128K et le "flash attention" permettent des flux de travail sur documents longs, sous licence Apache 2.0 pour un usage commercial sans restriction. Des quantifications GGUF sont disponibles pour l'inférence auto-hébergée avec llama.cpp.
Configuration matérielle
Facultatif — pour des recommandations de déploiement précises
| Quantification | Qualité | Taille | Adéquation |
|---|---|---|---|
| FP16 | Pleine précision | 60.88 GB | — |
| Q8_0 | Élevée | 59.03 GB | — |
| Q8_K_XL | Élevée | 60.04 GB | — |
| Q6_K | Élevée | 58.93 GB | — |
| Q6_K_XL | Élevée | 58.93 GB | — |
| Q5_K_M | Moyenne | 58.57 GB | — |
| Q5_K_S | Moyenne | 58.56 GB | — |
| Q4_K_M | Moyenne | 58.46 GB | — |
| Q4_K_S | Moyenne | 58.45 GB | — |
| Q4_K_XL | Moyenne | 58.69 GB | — |
| Q4_0 | Moyenne | 58.32 GB | — |
| Q4_1 | Moyenne | 58.41 GB | — |
| Q3_K_M | Basse | 58.32 GB | — |
| Q3_K_S | Basse | 58.27 GB | — |
| Q2_K | Basse | 58.27 GB | — |
| Q2_K_L | Basse | 58.54 GB | — |
Dernière mise à jour : 5 mars 2026