NVIDIA Nemotron 3 Nano 30B A3B
NVIDIA
Code Multilingual Thinking Tool Calls
Nemotron 3 Nano 30B A3B è un modello ibrido Mamba-2 Transformer MoE da 31,58 miliardi di parametri di NVIDIA, addestrato su 25 bilioni di token per ragionamento unificato e attività agentiche. Con 128 esperti e 6 attivi per token più 1 esperto condiviso, solo 3,5 miliardi di parametri vengono attivati per passaggio in avanti. Il modello supporta generazione di codice, "tool calling" e conversazione multilingue in 6 lingue. Una finestra di contesto da 256K e il "flash attention" consentono flussi di lavoro a contesto lungo, con una modalità di ragionamento attivabile per bilanciare qualità e latenza. La sua struttura MoE si quantizza bene in formato GGUF per il deployment self-hosted.
Configurazione hardware
Facoltativo — per raccomandazioni di distribuzione precise
| Quantizzazione | Qualità | Dimensione | Adeguatezza |
|---|---|---|---|
| Q8_0 | Alta | 31.28 GB | — |
| Q8_K_XL | Alta | 37.67 GB | — |
| Q6_K | Alta | 31.21 GB | — |
| Q6_K_XL | Alta | 31.21 GB | — |
| Q5_K_M | Media | 24.35 GB | — |
| Q5_K_S | Media | 22.31 GB | — |
| Q5_K_XL | Media | 25.62 GB | — |
| Q4_K_M | Media | 22.89 GB | — |
| Q4_K_S | Media | 20.51 GB | — |
| Q4_K_XL | Media | 21.27 GB | — |
| Q4_0 | Media | 16.96 GB | — |
| Q4_1 | Media | 18.68 GB | — |
| Q3_K_M | Bassa | 18.63 GB | — |
| Q3_K_S | Bassa | 16.88 GB | — |
| Q3_K_XL | Bassa | 18.57 GB | — |
| Q2_K_L | Bassa | 16.85 GB | — |
| Q2_K_XL | Bassa | 18.55 GB | — |
Ultimo aggiornamento: 5 marzo 2026