Salta ai contenuti

NVIDIA Nemotron 3 Super 120B A12B

NVIDIA
Code Multilingual Thinking Tool Calls

Nemotron 3 Super 120B A12B è un modello ibrido Mamba-2 Transformer LatentMoE da 123,61 miliardi di parametri di NVIDIA, che attiva 12 miliardi di parametri per token tramite 22 dei 512 esperti instradati più 1 esperto condiviso. Addestrato su oltre 25 bilioni di token, è orientato al ragionamento agentico, generazione di codice, chiamata di strumenti e conversazione multilingue in 7 lingue. Una finestra di contesto da 256K, modalità di ragionamento attivabile e predizione multi-token consentono inferenza ad alto throughput per flussi di lavoro multi-agente complessi. La sua struttura MoE si quantizza bene in formato GGUF per il deployment self-hosted su configurazioni multi-GPU.

Configurazione hardware

Facoltativo — per raccomandazioni di distribuzione precise
Quantizzazione Qualità Dimensione Adeguatezza
MXFP4_MOE Molto alta 76.42 GB
Q8_0 Alta 119.65 GB
Q8_K_XL Alta 123.39 GB
Q6_K Alta 106.87 GB
Q6_K_XL Alta 109.75 GB
Q5_K_M Media 99.97 GB
Q5_K_S Media 83.56 GB
Q5_K_XL Media 100.19 GB
Q4_K_M Media 76.87 GB
Q4_K_S Media 73.59 GB
Q4_K_XL Media 78.02 GB
Q3_K_M Bassa 57.48 GB
Q3_K_S Bassa 57.48 GB
Q3_K_XL Bassa 58.33 GB
Q2_K_XL Bassa 50.9 GB
Ultimo aggiornamento: 12 marzo 2026