NVIDIA Nemotron 3 Nano 4B

Code Thinking Tool Calls

Nemotron 3 Nano 4B ist ein dichtes Hybrid-Modell aus Mamba-2 und Transformer mit 3,97 Milliarden Parametern von NVIDIA, komprimiert aus dem größeren 9B-Nano-v2-Modell. Es unterstützt einen umschaltbaren Denkmodus, Tool Calling und Codegenerierung für agentische und Reasoning-Aufgaben. Ein 262K-Kontextfenster und Flash Attention ermöglichen Workflows mit langem Kontext auf bescheidener Hardware. GGUF-Quantisierungen reichen von 2 bis 8 GB, ideal für Edge-Geräte und Consumer-GPUs mit begrenztem Speicher.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
BF16	Volle Präzision	7.96 GB	—
Q8_0	Hoch	4.23 GB	—
Q8_K_XL	Hoch	5.63 GB	—
Q6_K	Hoch	4.06 GB	—
Q6_K_XL	Hoch	4.56 GB	—
Q5_K_M	Mittel	3.16 GB	—
Q5_K_S	Mittel	3.11 GB	—
Q5_K_XL	Mittel	3.31 GB	—
Q4_K_M	Mittel	2.9 GB	—
Q4_K_S	Mittel	2.83 GB	—
Q4_K_XL	Mittel	3.13 GB	—
IQ4_NL	Mittel	2.57 GB	—
IQ4_XS	Mittel	2.54 GB	—
Q4_0	Mittel	2.53 GB	—
Q4_1	Mittel	2.71 GB	—
Q3_K_M	Niedrig	2.46 GB	—
Q3_K_S	Niedrig	2.36 GB	—
Q3_K_XL	Niedrig	2.68 GB	—
IQ3_XXS	Niedrig	2.39 GB	—
Q2_K_XL	Niedrig	2.5 GB	—
IQ2_M	Niedrig	2.3 GB	—
IQ2_XXS	Niedrig	2.18 GB	—

Zuletzt aktualisiert: 24. März 2026