NVIDIA Nemotron 3 Nano 4B

Code Thinking Tool Calls

Nemotron 3 Nano 4B est un modèle dense hybride Mamba-2/Transformer de 3,97 milliards de paramètres développé par NVIDIA, compressé à partir du modèle 9B Nano v2. Il prend en charge un mode de réflexion activable, l'appel d'outils et la génération de code pour les tâches agentiques et de raisonnement. Une fenêtre de contexte de 262K et le flash attention permettent des flux de travail à contexte long sur du matériel modeste. Les quantifications GGUF vont de 2 à 8 Go, ce qui le rend idéal pour les appareils en périphérie et les GPU grand public à mémoire limitée.

Configuration matérielle

Fabricant

Produit

Plateforme

Famille

Modèle

VRAM

RAM système (Go) Facultatif — pour des recommandations de déploiement précises

Quantification	Qualité	Taille	Adéquation
BF16	Pleine précision	7.96 GB	—
Q8_0	Élevée	4.23 GB	—
Q8_K_XL	Élevée	5.63 GB	—
Q6_K	Élevée	4.06 GB	—
Q6_K_XL	Élevée	4.56 GB	—
Q5_K_M	Moyenne	3.16 GB	—
Q5_K_S	Moyenne	3.11 GB	—
Q5_K_XL	Moyenne	3.31 GB	—
Q4_K_M	Moyenne	2.9 GB	—
Q4_K_S	Moyenne	2.83 GB	—
Q4_K_XL	Moyenne	3.13 GB	—
IQ4_NL	Moyenne	2.57 GB	—
IQ4_XS	Moyenne	2.54 GB	—
Q4_0	Moyenne	2.53 GB	—
Q4_1	Moyenne	2.71 GB	—
Q3_K_M	Basse	2.46 GB	—
Q3_K_S	Basse	2.36 GB	—
Q3_K_XL	Basse	2.68 GB	—
IQ3_XXS	Basse	2.39 GB	—
Q2_K_XL	Basse	2.5 GB	—
IQ2_M	Basse	2.3 GB	—
IQ2_XXS	Basse	2.18 GB	—

Dernière mise à jour : 24 mars 2026