NVIDIA Nemotron 3 Nano 30B A3B
NVIDIA
Code Multilingual Thinking Tool Calls
Nemotron 3 Nano 30B A3B est un modèle hybride Mamba-2 Transformer MoE de 31,58 milliards de paramètres de NVIDIA, entraîné sur 25 billions de tokens pour le raisonnement unifié et les tâches agentiques. Avec 128 experts et 6 actifs par token plus 1 expert partagé, seuls 3,5 milliards de paramètres sont activés par passe avant. Le modèle prend en charge la génération de code, l'appel d'outils et la conversation multilingue dans 6 langues. Une fenêtre de contexte de 256K et le "flash attention" permettent des flux de travail à contexte long, avec un mode de raisonnement activable pour équilibrer qualité et latence. Sa structure MoE se quantifie bien au format GGUF pour un déploiement auto-hébergé.
Configuration matérielle
Facultatif — pour des recommandations de déploiement précises
| Quantification | Qualité | Taille | Adéquation |
|---|---|---|---|
| Q8_0 | Élevée | 31.28 GB | — |
| Q8_K_XL | Élevée | 37.67 GB | — |
| Q6_K | Élevée | 31.21 GB | — |
| Q6_K_XL | Élevée | 31.21 GB | — |
| Q5_K_M | Moyenne | 24.35 GB | — |
| Q5_K_S | Moyenne | 22.31 GB | — |
| Q5_K_XL | Moyenne | 25.62 GB | — |
| Q4_K_M | Moyenne | 22.89 GB | — |
| Q4_K_S | Moyenne | 20.51 GB | — |
| Q4_K_XL | Moyenne | 21.27 GB | — |
| Q4_0 | Moyenne | 16.96 GB | — |
| Q4_1 | Moyenne | 18.68 GB | — |
| Q3_K_M | Basse | 18.63 GB | — |
| Q3_K_S | Basse | 16.88 GB | — |
| Q3_K_XL | Basse | 18.57 GB | — |
| Q2_K_L | Basse | 16.85 GB | — |
| Q2_K_XL | Basse | 18.55 GB | — |
Dernière mise à jour : 5 mars 2026