GPT OSS 120B

Multilingual Thinking Tool Calls

GPT OSS 120B est un modèle "Mixture-of-Experts" de 120,41 milliards de paramètres d'OpenAI, entraîné par distillation à grande échelle et apprentissage par renforcement pour le raisonnement agentique. Avec 128 experts et 4 actifs par token, il tient sur un seul GPU de 80 Go grâce à la quantification native MXFP4 des poids MoE. Le modèle prend en charge un effort de raisonnement configurable, l'appel de fonctions et la conversation multilingue dans 12 langues. Sa fenêtre de contexte de 128K et le "flash attention" permettent des flux de travail sur documents longs, sous licence Apache 2.0 pour un usage commercial sans restriction. Des quantifications GGUF sont disponibles pour l'inférence auto-hébergée avec llama.cpp.

Configuration matérielle

Fabricant

Produit

Plateforme

Famille

Modèle

VRAM

RAM système (Go) Facultatif — pour des recommandations de déploiement précises

Quantification	Qualité	Taille	Adéquation
FP16	Pleine précision	60.88 GB	—
Q8_0	Élevée	59.03 GB	—
Q8_K_XL	Élevée	60.04 GB	—
Q6_K	Élevée	58.93 GB	—
Q6_K_XL	Élevée	58.93 GB	—
Q5_K_M	Moyenne	58.57 GB	—
Q5_K_S	Moyenne	58.56 GB	—
Q4_K_M	Moyenne	58.46 GB	—
Q4_K_S	Moyenne	58.45 GB	—
Q4_K_XL	Moyenne	58.69 GB	—
Q4_0	Moyenne	58.32 GB	—
Q4_1	Moyenne	58.41 GB	—
Q3_K_M	Basse	58.32 GB	—
Q3_K_S	Basse	58.27 GB	—
Q2_K	Basse	58.27 GB	—
Q2_K_L	Basse	58.54 GB	—

Dernière mise à jour : 29 avril 2026