NVIDIA Nemotron 3 Nano 30B A3B

Code Multilingual Thinking Tool Calls

Nemotron 3 Nano 30B A3B est un modèle hybride Mamba-2 Transformer MoE de 31,58 milliards de paramètres de NVIDIA, entraîné sur 25 billions de tokens pour le raisonnement unifié et les tâches agentiques. Avec 128 experts et 6 actifs par token plus 1 expert partagé, seuls 3,5 milliards de paramètres sont activés par passe avant. Le modèle prend en charge la génération de code, l'appel d'outils et la conversation multilingue dans 6 langues. Une fenêtre de contexte de 256K et le "flash attention" permettent des flux de travail à contexte long, avec un mode de raisonnement activable pour équilibrer qualité et latence. Sa structure MoE se quantifie bien au format GGUF pour un déploiement auto-hébergé.

Configuration matérielle

Fabricant

Produit

Plateforme

Famille

Modèle

VRAM

RAM système (Go) Facultatif — pour des recommandations de déploiement précises

Quantification	Qualité	Taille	Adéquation
Q8_0	Élevée	31.28 GB	—
Q8_K_XL	Élevée	37.67 GB	—
Q6_K	Élevée	31.21 GB	—
Q6_K_XL	Élevée	31.21 GB	—
Q5_K_M	Moyenne	24.35 GB	—
Q5_K_S	Moyenne	22.31 GB	—
Q5_K_XL	Moyenne	25.62 GB	—
Q4_K_M	Moyenne	22.89 GB	—
Q4_K_S	Moyenne	20.51 GB	—
Q4_K_XL	Moyenne	21.27 GB	—
Q4_0	Moyenne	16.96 GB	—
Q4_1	Moyenne	18.68 GB	—
Q3_K_M	Basse	18.63 GB	—
Q3_K_S	Basse	16.88 GB	—
Q3_K_XL	Basse	18.57 GB	—
Q2_K_L	Basse	16.85 GB	—
Q2_K_XL	Basse	18.55 GB	—

Dernière mise à jour : 24 mars 2026