Zum Inhalt springen

NVIDIA Nemotron 3 Nano 30B A3B

NVIDIA
Code Multilingual Thinking Tool Calls

Nemotron 3 Nano 30B A3B ist ein hybrides Mamba-2-Transformer-MoE-Modell mit 31,58 Milliarden Parametern von NVIDIA, trainiert auf 25 Billionen Tokens für einheitliches Reasoning und agentische Aufgaben. Mit 128 Experten und 6 aktiven pro Token plus 1 geteiltem Experten werden nur 3,5 Milliarden Parameter pro Vorwärtsdurchlauf aktiviert. Das Modell unterstützt Codegenerierung, Tool Calling und mehrsprachige Konversation in 6 Sprachen. Ein 256K-Kontextfenster und Flash Attention ermöglichen Workflows mit langem Kontext, mit einem umschaltbaren Reasoning-Modus zur Abwägung von Qualität und Latenz. Die MoE-Architektur lässt sich gut im GGUF-Format für Self-Hosting quantisieren.

Hardwarekonfiguration

Optional — für präzise Bereitstellungsempfehlungen
Quantisierung Qualität Größe Eignung
Q8_0 Hoch 31.28 GB
Q8_K_XL Hoch 37.67 GB
Q6_K Hoch 31.21 GB
Q6_K_XL Hoch 31.21 GB
Q5_K_M Mittel 24.35 GB
Q5_K_S Mittel 22.31 GB
Q5_K_XL Mittel 25.62 GB
Q4_K_M Mittel 22.89 GB
Q4_K_S Mittel 20.51 GB
Q4_K_XL Mittel 21.27 GB
Q4_0 Mittel 16.96 GB
Q4_1 Mittel 18.68 GB
Q3_K_M Niedrig 18.63 GB
Q3_K_S Niedrig 16.88 GB
Q3_K_XL Niedrig 18.57 GB
Q2_K_L Niedrig 16.85 GB
Q2_K_XL Niedrig 18.55 GB
Zuletzt aktualisiert: 5. März 2026