NVIDIA Nemotron 3 Super 120B A12B

Code Multilingual Thinking Tool Calls

Nemotron 3 Super 120B A12B ist ein hybrides Mamba-2-Transformer-LatentMoE-Modell mit 123,61 Milliarden Parametern von NVIDIA, das 12 Milliarden Parameter pro Token über 22 von 512 gerouteten Experten plus 1 geteiltem Experten aktiviert. Trainiert auf über 25 Billionen Tokens, zielt es auf agentisches Reasoning, Codegenerierung, Tool Calling und mehrsprachige Konversation in 7 Sprachen ab. Ein 256K-Kontextfenster, umschaltbarer Reasoning-Modus und Multi-Token-Prediction ermöglichen Hochdurchsatz-Inferenz für komplexe Multi-Agenten-Workflows. Die MoE-Architektur lässt sich gut im GGUF-Format für Self-Hosting auf Multi-GPU-Konfigurationen quantisieren.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
Q8_0	Hoch	119.65 GB	—
Q8_K_XL	Hoch	123.39 GB	—
Q6_K	Hoch	106.87 GB	—
Q6_K_XL	Hoch	109.75 GB	—
Q5_K_M	Mittel	99.97 GB	—
Q5_K_S	Mittel	83.56 GB	—
Q5_K_XL	Mittel	100.19 GB	—
Q4_K_M	Mittel	76.87 GB	—
Q4_K_S	Mittel	73.59 GB	—
Q4_K_XL	Mittel	78.02 GB	—
MXFP4_MOE	Mittel	76.42 GB	—
Q3_K_M	Niedrig	57.48 GB	—
Q3_K_S	Niedrig	57.48 GB	—
Q3_K_XL	Niedrig	58.33 GB	—
Q2_K_XL	Niedrig	50.9 GB	—

Zuletzt aktualisiert: 29. April 2026