NVIDIA Nemotron 3 Super 120B A12B
NVIDIA
Code Multilingual Thinking Tool Calls
Nemotron 3 Super 120B A12B è un modello ibrido Mamba-2 Transformer LatentMoE da 123,61 miliardi di parametri di NVIDIA, che attiva 12 miliardi di parametri per token tramite 22 dei 512 esperti instradati più 1 esperto condiviso. Addestrato su oltre 25 bilioni di token, è orientato al ragionamento agentico, generazione di codice, chiamata di strumenti e conversazione multilingue in 7 lingue. Una finestra di contesto da 256K, modalità di ragionamento attivabile e predizione multi-token consentono inferenza ad alto throughput per flussi di lavoro multi-agente complessi. La sua struttura MoE si quantizza bene in formato GGUF per il deployment self-hosted su configurazioni multi-GPU.
Configurazione hardware
Facoltativo — per raccomandazioni di distribuzione precise
| Quantizzazione | Qualità | Dimensione | Adeguatezza |
|---|---|---|---|
| MXFP4_MOE | Molto alta | 76.42 GB | — |
| Q8_0 | Alta | 119.65 GB | — |
| Q8_K_XL | Alta | 123.39 GB | — |
| Q6_K | Alta | 106.87 GB | — |
| Q6_K_XL | Alta | 109.75 GB | — |
| Q5_K_M | Media | 99.97 GB | — |
| Q5_K_S | Media | 83.56 GB | — |
| Q5_K_XL | Media | 100.19 GB | — |
| Q4_K_M | Media | 76.87 GB | — |
| Q4_K_S | Media | 73.59 GB | — |
| Q4_K_XL | Media | 78.02 GB | — |
| Q3_K_M | Bassa | 57.48 GB | — |
| Q3_K_S | Bassa | 57.48 GB | — |
| Q3_K_XL | Bassa | 58.33 GB | — |
| Q2_K_XL | Bassa | 50.9 GB | — |
Ultimo aggiornamento: 12 marzo 2026