Aller au contenu

NVIDIA Nemotron 3 Super 120B A12B

NVIDIA
Code Multilingual Thinking Tool Calls

Nemotron 3 Super 120B A12B est un modèle hybride Mamba-2 Transformer LatentMoE de 123,61 milliards de paramètres de NVIDIA, activant 12 milliards de paramètres par token via 22 des 512 experts routés plus 1 expert partagé. Entraîné sur plus de 25 billions de tokens, il cible le raisonnement agentique, la génération de code, l'appel d'outils et la conversation multilingue dans 7 langues. Une fenêtre de contexte de 256K, un mode de raisonnement activable et la prédiction multi-tokens permettent une inférence à haut débit pour des workflows multi-agents complexes. Sa structure MoE se quantifie bien en GGUF pour un déploiement auto-hébergé sur des configurations multi-GPU.

Configuration matérielle

Facultatif — pour des recommandations de déploiement précises
Quantification Qualité Taille Adéquation
MXFP4_MOE Très élevée 76.42 GB
Q8_0 Élevée 119.65 GB
Q8_K_XL Élevée 123.39 GB
Q6_K Élevée 106.87 GB
Q6_K_XL Élevée 109.75 GB
Q5_K_M Moyenne 99.97 GB
Q5_K_S Moyenne 83.56 GB
Q5_K_XL Moyenne 100.19 GB
Q4_K_M Moyenne 76.87 GB
Q4_K_S Moyenne 73.59 GB
Q4_K_XL Moyenne 78.02 GB
Q3_K_M Basse 57.48 GB
Q3_K_S Basse 57.48 GB
Q3_K_XL Basse 58.33 GB
Q2_K_XL Basse 50.9 GB
Dernière mise à jour : 12 mars 2026