NVIDIA Nemotron 3 Nano 30B A3B
NVIDIA
Code Multilingual Thinking Tool Calls
Nemotron 3 Nano 30B A3B ist ein hybrides Mamba-2-Transformer-MoE-Modell mit 31,58 Milliarden Parametern von NVIDIA, trainiert auf 25 Billionen Tokens für einheitliches Reasoning und agentische Aufgaben. Mit 128 Experten und 6 aktiven pro Token plus 1 geteiltem Experten werden nur 3,5 Milliarden Parameter pro Vorwärtsdurchlauf aktiviert. Das Modell unterstützt Codegenerierung, Tool Calling und mehrsprachige Konversation in 6 Sprachen. Ein 256K-Kontextfenster und Flash Attention ermöglichen Workflows mit langem Kontext, mit einem umschaltbaren Reasoning-Modus zur Abwägung von Qualität und Latenz. Die MoE-Architektur lässt sich gut im GGUF-Format für Self-Hosting quantisieren.
Hardwarekonfiguration
Optional — für präzise Bereitstellungsempfehlungen
| Quantisierung | Qualität | Größe | Eignung |
|---|---|---|---|
| Q8_0 | Hoch | 31.28 GB | — |
| Q8_K_XL | Hoch | 37.67 GB | — |
| Q6_K | Hoch | 31.21 GB | — |
| Q6_K_XL | Hoch | 31.21 GB | — |
| Q5_K_M | Mittel | 24.35 GB | — |
| Q5_K_S | Mittel | 22.31 GB | — |
| Q5_K_XL | Mittel | 25.62 GB | — |
| Q4_K_M | Mittel | 22.89 GB | — |
| Q4_K_S | Mittel | 20.51 GB | — |
| Q4_K_XL | Mittel | 21.27 GB | — |
| Q4_0 | Mittel | 16.96 GB | — |
| Q4_1 | Mittel | 18.68 GB | — |
| Q3_K_M | Niedrig | 18.63 GB | — |
| Q3_K_S | Niedrig | 16.88 GB | — |
| Q3_K_XL | Niedrig | 18.57 GB | — |
| Q2_K_L | Niedrig | 16.85 GB | — |
| Q2_K_XL | Niedrig | 18.55 GB | — |
Zuletzt aktualisiert: 5. März 2026