NVIDIA Nemotron 3 Super 120B A12B

Code Multilingual Thinking Tool Calls

Nemotron 3 Super 120B A12B è un modello ibrido Mamba-2 Transformer LatentMoE da 123,61 miliardi di parametri di NVIDIA, che attiva 12 miliardi di parametri per token tramite 22 dei 512 esperti instradati più 1 esperto condiviso. Addestrato su oltre 25 bilioni di token, è orientato al ragionamento agentico, generazione di codice, chiamata di strumenti e conversazione multilingue in 7 lingue. Una finestra di contesto da 256K, modalità di ragionamento attivabile e predizione multi-token consentono inferenza ad alto throughput per flussi di lavoro multi-agente complessi. La sua struttura MoE si quantizza bene in formato GGUF per il deployment self-hosted su configurazioni multi-GPU.

Configurazione hardware

Produttore

Prodotto

Piattaforma

Famiglia

Modello

VRAM

RAM di sistema (GB) Facoltativo — per raccomandazioni di distribuzione precise

Quantizzazione	Qualità	Dimensione	Adeguatezza
Q8_0	Alta	119.65 GB	—
Q8_K_XL	Alta	123.39 GB	—
Q6_K	Alta	106.87 GB	—
Q6_K_XL	Alta	109.75 GB	—
Q5_K_M	Media	99.97 GB	—
Q5_K_S	Media	83.56 GB	—
Q5_K_XL	Media	100.19 GB	—
Q4_K_M	Media	76.87 GB	—
Q4_K_S	Media	73.59 GB	—
Q4_K_XL	Media	78.02 GB	—
MXFP4_MOE	Media	76.42 GB	—
Q3_K_M	Bassa	57.48 GB	—
Q3_K_S	Bassa	57.48 GB	—
Q3_K_XL	Bassa	58.33 GB	—
Q2_K_XL	Bassa	50.9 GB	—

Ultimo aggiornamento: 29 aprile 2026