Zum Inhalt springen

NVIDIA Nemotron 3 Nano 4B

NVIDIA
Code Thinking Tool Calls

Nemotron 3 Nano 4B ist ein dichtes Hybrid-Modell aus Mamba-2 und Transformer mit 3,97 Milliarden Parametern von NVIDIA, komprimiert aus dem größeren 9B-Nano-v2-Modell. Es unterstützt einen umschaltbaren Denkmodus, Tool Calling und Codegenerierung für agentische und Reasoning-Aufgaben. Ein 262K-Kontextfenster und Flash Attention ermöglichen Workflows mit langem Kontext auf bescheidener Hardware. GGUF-Quantisierungen reichen von 2 bis 8 GB, ideal für Edge-Geräte und Consumer-GPUs mit begrenztem Speicher.

Hardwarekonfiguration

Optional — für präzise Bereitstellungsempfehlungen
Quantisierung Qualität Größe Eignung
BF16 Volle Präzision 7.96 GB
Q8_0 Hoch 4.23 GB
Q8_K_XL Hoch 5.63 GB
Q6_K Hoch 4.06 GB
Q6_K_XL Hoch 4.56 GB
Q5_K_M Mittel 3.16 GB
Q5_K_S Mittel 3.11 GB
Q5_K_XL Mittel 3.31 GB
Q4_K_M Mittel 2.9 GB
Q4_K_S Mittel 2.83 GB
Q4_K_XL Mittel 3.13 GB
IQ4_NL Mittel 2.57 GB
IQ4_XS Mittel 2.54 GB
Q4_0 Mittel 2.53 GB
Q4_1 Mittel 2.71 GB
Q3_K_M Niedrig 2.46 GB
Q3_K_S Niedrig 2.36 GB
Q3_K_XL Niedrig 2.68 GB
IQ3_XXS Niedrig 2.39 GB
Q2_K_XL Niedrig 2.5 GB
IQ2_M Niedrig 2.3 GB
IQ2_XXS Niedrig 2.18 GB
Zuletzt aktualisiert: 17. März 2026