NVIDIA Nemotron 3 Nano 30B A3B
NVIDIA
Code Multilingual Thinking Tool Calls
Nemotron 3 Nano 30B A3B es un modelo híbrido Mamba-2 Transformer MoE de 31.580 millones de parámetros de NVIDIA, entrenado con 25 billones de tokens para razonamiento unificado y tareas agénticas. Con 128 expertos y 6 activos por token más 1 experto compartido, solo se activan 3.500 millones de parámetros por pasada. El modelo soporta generación de código, llamada a herramientas y conversación multilingüe en 6 idiomas. Una ventana de contexto de 256K y "flash attention" permiten flujos de trabajo con contexto largo, con un modo de razonamiento activable para equilibrar calidad y latencia. Su arquitectura MoE se cuantiza bien en formato GGUF para despliegue autoalojado.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| Q8_0 | Alta | 31.28 GB | — |
| Q8_K_XL | Alta | 37.67 GB | — |
| Q6_K | Alta | 31.21 GB | — |
| Q6_K_XL | Alta | 31.21 GB | — |
| Q5_K_M | Media | 24.35 GB | — |
| Q5_K_S | Media | 22.31 GB | — |
| Q5_K_XL | Media | 25.62 GB | — |
| Q4_K_M | Media | 22.89 GB | — |
| Q4_K_S | Media | 20.51 GB | — |
| Q4_K_XL | Media | 21.27 GB | — |
| Q4_0 | Media | 16.96 GB | — |
| Q4_1 | Media | 18.68 GB | — |
| Q3_K_M | Baja | 18.63 GB | — |
| Q3_K_S | Baja | 16.88 GB | — |
| Q3_K_XL | Baja | 18.57 GB | — |
| Q2_K_L | Baja | 16.85 GB | — |
| Q2_K_XL | Baja | 18.55 GB | — |
Última actualización: 5 de marzo de 2026