Zum Inhalt springen

NVIDIA Nemotron 3 Super 120B A12B

NVIDIA
Code Multilingual Thinking Tool Calls

Nemotron 3 Super 120B A12B ist ein hybrides Mamba-2-Transformer-LatentMoE-Modell mit 123,61 Milliarden Parametern von NVIDIA, das 12 Milliarden Parameter pro Token über 22 von 512 gerouteten Experten plus 1 geteiltem Experten aktiviert. Trainiert auf über 25 Billionen Tokens, zielt es auf agentisches Reasoning, Codegenerierung, Tool Calling und mehrsprachige Konversation in 7 Sprachen ab. Ein 256K-Kontextfenster, umschaltbarer Reasoning-Modus und Multi-Token-Prediction ermöglichen Hochdurchsatz-Inferenz für komplexe Multi-Agenten-Workflows. Die MoE-Architektur lässt sich gut im GGUF-Format für Self-Hosting auf Multi-GPU-Konfigurationen quantisieren.

Hardwarekonfiguration

Optional — für präzise Bereitstellungsempfehlungen
Quantisierung Qualität Größe Eignung
MXFP4_MOE Sehr hoch 76.42 GB
Q8_0 Hoch 119.65 GB
Q8_K_XL Hoch 123.39 GB
Q6_K Hoch 106.87 GB
Q6_K_XL Hoch 109.75 GB
Q5_K_M Mittel 99.97 GB
Q5_K_S Mittel 83.56 GB
Q5_K_XL Mittel 100.19 GB
Q4_K_M Mittel 76.87 GB
Q4_K_S Mittel 73.59 GB
Q4_K_XL Mittel 78.02 GB
Q3_K_M Niedrig 57.48 GB
Q3_K_S Niedrig 57.48 GB
Q3_K_XL Niedrig 58.33 GB
Q2_K_XL Niedrig 50.9 GB
Zuletzt aktualisiert: 12. März 2026