NVIDIA Nemotron 3 Super 120B A12B

Code Multilingual Thinking Tool Calls

Nemotron 3 Super 120B A12B est un modèle hybride Mamba-2 Transformer LatentMoE de 123,61 milliards de paramètres de NVIDIA, activant 12 milliards de paramètres par token via 22 des 512 experts routés plus 1 expert partagé. Entraîné sur plus de 25 billions de tokens, il cible le raisonnement agentique, la génération de code, l'appel d'outils et la conversation multilingue dans 7 langues. Une fenêtre de contexte de 256K, un mode de raisonnement activable et la prédiction multi-tokens permettent une inférence à haut débit pour des workflows multi-agents complexes. Sa structure MoE se quantifie bien en GGUF pour un déploiement auto-hébergé sur des configurations multi-GPU.

Configuration matérielle

Fabricant

Produit

Plateforme

Famille

Modèle

VRAM

RAM système (Go) Facultatif — pour des recommandations de déploiement précises

Quantification	Qualité	Taille	Adéquation
Q8_0	Élevée	119.65 GB	—
Q8_K_XL	Élevée	123.39 GB	—
Q6_K	Élevée	106.87 GB	—
Q6_K_XL	Élevée	109.75 GB	—
Q5_K_M	Moyenne	99.97 GB	—
Q5_K_S	Moyenne	83.56 GB	—
Q5_K_XL	Moyenne	100.19 GB	—
Q4_K_M	Moyenne	76.87 GB	—
Q4_K_S	Moyenne	73.59 GB	—
Q4_K_XL	Moyenne	78.02 GB	—
MXFP4_MOE	Moyenne	76.42 GB	—
Q3_K_M	Basse	57.48 GB	—
Q3_K_S	Basse	57.48 GB	—
Q3_K_XL	Basse	58.33 GB	—
Q2_K_XL	Basse	50.9 GB	—

Dernière mise à jour : 29 avril 2026