Aller au contenu

GPT OSS 120B

OpenAI
Multilingual Thinking Tool Calls

GPT OSS 120B est un modèle "Mixture-of-Experts" de 120,41 milliards de paramètres d'OpenAI, entraîné par distillation à grande échelle et apprentissage par renforcement pour le raisonnement agentique. Avec 128 experts et 4 actifs par token, il tient sur un seul GPU de 80 Go grâce à la quantification native MXFP4 des poids MoE. Le modèle prend en charge un effort de raisonnement configurable, l'appel de fonctions et la conversation multilingue dans 12 langues. Sa fenêtre de contexte de 128K et le "flash attention" permettent des flux de travail sur documents longs, sous licence Apache 2.0 pour un usage commercial sans restriction. Des quantifications GGUF sont disponibles pour l'inférence auto-hébergée avec llama.cpp.

Configuration matérielle

Facultatif — pour des recommandations de déploiement précises
Quantification Qualité Taille Adéquation
FP16 Pleine précision 60.88 GB
Q8_0 Élevée 59.03 GB
Q8_K_XL Élevée 60.04 GB
Q6_K Élevée 58.93 GB
Q6_K_XL Élevée 58.93 GB
Q5_K_M Moyenne 58.57 GB
Q5_K_S Moyenne 58.56 GB
Q4_K_M Moyenne 58.46 GB
Q4_K_S Moyenne 58.45 GB
Q4_K_XL Moyenne 58.69 GB
Q4_0 Moyenne 58.32 GB
Q4_1 Moyenne 58.41 GB
Q3_K_M Basse 58.32 GB
Q3_K_S Basse 58.27 GB
Q2_K Basse 58.27 GB
Q2_K_L Basse 58.54 GB
Dernière mise à jour : 5 mars 2026