NVIDIA Nemotron 3 Nano 4B
NVIDIA
Code Thinking Tool Calls
Nemotron 3 Nano 4B ist ein dichtes Hybrid-Modell aus Mamba-2 und Transformer mit 3,97 Milliarden Parametern von NVIDIA, komprimiert aus dem größeren 9B-Nano-v2-Modell. Es unterstützt einen umschaltbaren Denkmodus, Tool Calling und Codegenerierung für agentische und Reasoning-Aufgaben. Ein 262K-Kontextfenster und Flash Attention ermöglichen Workflows mit langem Kontext auf bescheidener Hardware. GGUF-Quantisierungen reichen von 2 bis 8 GB, ideal für Edge-Geräte und Consumer-GPUs mit begrenztem Speicher.
Hardwarekonfiguration
Optional — für präzise Bereitstellungsempfehlungen
| Quantisierung | Qualität | Größe | Eignung |
|---|---|---|---|
| BF16 | Volle Präzision | 7.96 GB | — |
| Q8_0 | Hoch | 4.23 GB | — |
| Q8_K_XL | Hoch | 5.63 GB | — |
| Q6_K | Hoch | 4.06 GB | — |
| Q6_K_XL | Hoch | 4.56 GB | — |
| Q5_K_M | Mittel | 3.16 GB | — |
| Q5_K_S | Mittel | 3.11 GB | — |
| Q5_K_XL | Mittel | 3.31 GB | — |
| Q4_K_M | Mittel | 2.9 GB | — |
| Q4_K_S | Mittel | 2.83 GB | — |
| Q4_K_XL | Mittel | 3.13 GB | — |
| IQ4_NL | Mittel | 2.57 GB | — |
| IQ4_XS | Mittel | 2.54 GB | — |
| Q4_0 | Mittel | 2.53 GB | — |
| Q4_1 | Mittel | 2.71 GB | — |
| Q3_K_M | Niedrig | 2.46 GB | — |
| Q3_K_S | Niedrig | 2.36 GB | — |
| Q3_K_XL | Niedrig | 2.68 GB | — |
| IQ3_XXS | Niedrig | 2.39 GB | — |
| Q2_K_XL | Niedrig | 2.5 GB | — |
| IQ2_M | Niedrig | 2.3 GB | — |
| IQ2_XXS | Niedrig | 2.18 GB | — |
Zuletzt aktualisiert: 17. März 2026