NVIDIA Nemotron 3 Super 120B A12B
NVIDIA
Code Multilingual Thinking Tool Calls
Nemotron 3 Super 120B A12B ist ein hybrides Mamba-2-Transformer-LatentMoE-Modell mit 123,61 Milliarden Parametern von NVIDIA, das 12 Milliarden Parameter pro Token über 22 von 512 gerouteten Experten plus 1 geteiltem Experten aktiviert. Trainiert auf über 25 Billionen Tokens, zielt es auf agentisches Reasoning, Codegenerierung, Tool Calling und mehrsprachige Konversation in 7 Sprachen ab. Ein 256K-Kontextfenster, umschaltbarer Reasoning-Modus und Multi-Token-Prediction ermöglichen Hochdurchsatz-Inferenz für komplexe Multi-Agenten-Workflows. Die MoE-Architektur lässt sich gut im GGUF-Format für Self-Hosting auf Multi-GPU-Konfigurationen quantisieren.
Hardwarekonfiguration
Optional — für präzise Bereitstellungsempfehlungen
| Quantisierung | Qualität | Größe | Eignung |
|---|---|---|---|
| MXFP4_MOE | Sehr hoch | 76.42 GB | — |
| Q8_0 | Hoch | 119.65 GB | — |
| Q8_K_XL | Hoch | 123.39 GB | — |
| Q6_K | Hoch | 106.87 GB | — |
| Q6_K_XL | Hoch | 109.75 GB | — |
| Q5_K_M | Mittel | 99.97 GB | — |
| Q5_K_S | Mittel | 83.56 GB | — |
| Q5_K_XL | Mittel | 100.19 GB | — |
| Q4_K_M | Mittel | 76.87 GB | — |
| Q4_K_S | Mittel | 73.59 GB | — |
| Q4_K_XL | Mittel | 78.02 GB | — |
| Q3_K_M | Niedrig | 57.48 GB | — |
| Q3_K_S | Niedrig | 57.48 GB | — |
| Q3_K_XL | Niedrig | 58.33 GB | — |
| Q2_K_XL | Niedrig | 50.9 GB | — |
Zuletzt aktualisiert: 12. März 2026