NVIDIA Nemotron 3 Super 120B A12B
NVIDIA
Code Multilingual Thinking Tool Calls
Nemotron 3 Super 120B A12B est un modèle hybride Mamba-2 Transformer LatentMoE de 123,61 milliards de paramètres de NVIDIA, activant 12 milliards de paramètres par token via 22 des 512 experts routés plus 1 expert partagé. Entraîné sur plus de 25 billions de tokens, il cible le raisonnement agentique, la génération de code, l'appel d'outils et la conversation multilingue dans 7 langues. Une fenêtre de contexte de 256K, un mode de raisonnement activable et la prédiction multi-tokens permettent une inférence à haut débit pour des workflows multi-agents complexes. Sa structure MoE se quantifie bien en GGUF pour un déploiement auto-hébergé sur des configurations multi-GPU.
Configuration matérielle
Facultatif — pour des recommandations de déploiement précises
| Quantification | Qualité | Taille | Adéquation |
|---|---|---|---|
| MXFP4_MOE | Très élevée | 76.42 GB | — |
| Q8_0 | Élevée | 119.65 GB | — |
| Q8_K_XL | Élevée | 123.39 GB | — |
| Q6_K | Élevée | 106.87 GB | — |
| Q6_K_XL | Élevée | 109.75 GB | — |
| Q5_K_M | Moyenne | 99.97 GB | — |
| Q5_K_S | Moyenne | 83.56 GB | — |
| Q5_K_XL | Moyenne | 100.19 GB | — |
| Q4_K_M | Moyenne | 76.87 GB | — |
| Q4_K_S | Moyenne | 73.59 GB | — |
| Q4_K_XL | Moyenne | 78.02 GB | — |
| Q3_K_M | Basse | 57.48 GB | — |
| Q3_K_S | Basse | 57.48 GB | — |
| Q3_K_XL | Basse | 58.33 GB | — |
| Q2_K_XL | Basse | 50.9 GB | — |
Dernière mise à jour : 12 mars 2026