Salta ai contenuti

NVIDIA Nemotron 3 Nano 30B A3B

NVIDIA
Code Multilingual Thinking Tool Calls

Nemotron 3 Nano 30B A3B è un modello ibrido Mamba-2 Transformer MoE da 31,58 miliardi di parametri di NVIDIA, addestrato su 25 bilioni di token per ragionamento unificato e attività agentiche. Con 128 esperti e 6 attivi per token più 1 esperto condiviso, solo 3,5 miliardi di parametri vengono attivati per passaggio in avanti. Il modello supporta generazione di codice, "tool calling" e conversazione multilingue in 6 lingue. Una finestra di contesto da 256K e il "flash attention" consentono flussi di lavoro a contesto lungo, con una modalità di ragionamento attivabile per bilanciare qualità e latenza. La sua struttura MoE si quantizza bene in formato GGUF per il deployment self-hosted.

Configurazione hardware

Facoltativo — per raccomandazioni di distribuzione precise
Quantizzazione Qualità Dimensione Adeguatezza
Q8_0 Alta 31.28 GB
Q8_K_XL Alta 37.67 GB
Q6_K Alta 31.21 GB
Q6_K_XL Alta 31.21 GB
Q5_K_M Media 24.35 GB
Q5_K_S Media 22.31 GB
Q5_K_XL Media 25.62 GB
Q4_K_M Media 22.89 GB
Q4_K_S Media 20.51 GB
Q4_K_XL Media 21.27 GB
Q4_0 Media 16.96 GB
Q4_1 Media 18.68 GB
Q3_K_M Bassa 18.63 GB
Q3_K_S Bassa 16.88 GB
Q3_K_XL Bassa 18.57 GB
Q2_K_L Bassa 16.85 GB
Q2_K_XL Bassa 18.55 GB
Ultimo aggiornamento: 5 marzo 2026