NVIDIA Nemotron 3 Nano 30B A3B

Code Multilingual Thinking Tool Calls

Nemotron 3 Nano 30B A3B ist ein hybrides Mamba-2-Transformer-MoE-Modell mit 31,58 Milliarden Parametern von NVIDIA, trainiert auf 25 Billionen Tokens für einheitliches Reasoning und agentische Aufgaben. Mit 128 Experten und 6 aktiven pro Token plus 1 geteiltem Experten werden nur 3,5 Milliarden Parameter pro Vorwärtsdurchlauf aktiviert. Das Modell unterstützt Codegenerierung, Tool Calling und mehrsprachige Konversation in 6 Sprachen. Ein 256K-Kontextfenster und Flash Attention ermöglichen Workflows mit langem Kontext, mit einem umschaltbaren Reasoning-Modus zur Abwägung von Qualität und Latenz. Die MoE-Architektur lässt sich gut im GGUF-Format für Self-Hosting quantisieren.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
Q8_0	Hoch	31.28 GB	—
Q8_K_XL	Hoch	37.67 GB	—
Q6_K	Hoch	31.21 GB	—
Q6_K_XL	Hoch	31.21 GB	—
Q5_K_M	Mittel	24.35 GB	—
Q5_K_S	Mittel	22.31 GB	—
Q5_K_XL	Mittel	25.62 GB	—
Q4_K_M	Mittel	22.89 GB	—
Q4_K_S	Mittel	20.51 GB	—
Q4_K_XL	Mittel	21.27 GB	—
Q4_0	Mittel	16.96 GB	—
Q4_1	Mittel	18.68 GB	—
Q3_K_M	Niedrig	18.63 GB	—
Q3_K_S	Niedrig	16.88 GB	—
Q3_K_XL	Niedrig	18.57 GB	—
Q2_K_L	Niedrig	16.85 GB	—
Q2_K_XL	Niedrig	18.55 GB	—

Zuletzt aktualisiert: 24. März 2026