NVIDIA Nemotron 3 Nano 30B A3B

Code Multilingual Thinking Tool Calls

Nemotron 3 Nano 30B A3B è un modello ibrido Mamba-2 Transformer MoE da 31,58 miliardi di parametri di NVIDIA, addestrato su 25 bilioni di token per ragionamento unificato e attività agentiche. Con 128 esperti e 6 attivi per token più 1 esperto condiviso, solo 3,5 miliardi di parametri vengono attivati per passaggio in avanti. Il modello supporta generazione di codice, "tool calling" e conversazione multilingue in 6 lingue. Una finestra di contesto da 256K e il "flash attention" consentono flussi di lavoro a contesto lungo, con una modalità di ragionamento attivabile per bilanciare qualità e latenza. La sua struttura MoE si quantizza bene in formato GGUF per il deployment self-hosted.

Configurazione hardware

Produttore

Prodotto

Piattaforma

Famiglia

Modello

VRAM

RAM di sistema (GB) Facoltativo — per raccomandazioni di distribuzione precise

Quantizzazione	Qualità	Dimensione	Adeguatezza
Q8_0	Alta	31.28 GB	—
Q8_K_XL	Alta	37.67 GB	—
Q6_K	Alta	31.21 GB	—
Q6_K_XL	Alta	31.21 GB	—
Q5_K_M	Media	24.35 GB	—
Q5_K_S	Media	22.31 GB	—
Q5_K_XL	Media	25.62 GB	—
Q4_K_M	Media	22.89 GB	—
Q4_K_S	Media	20.51 GB	—
Q4_K_XL	Media	21.27 GB	—
Q4_0	Media	16.96 GB	—
Q4_1	Media	18.68 GB	—
Q3_K_M	Bassa	18.63 GB	—
Q3_K_S	Bassa	16.88 GB	—
Q3_K_XL	Bassa	18.57 GB	—
Q2_K_L	Bassa	16.85 GB	—
Q2_K_XL	Bassa	18.55 GB	—

Ultimo aggiornamento: 24 marzo 2026