NVIDIA Nemotron 3 Nano 30B A3B

Code Multilingual Thinking Tool Calls

Nemotron 3 Nano 30B A3B es un modelo híbrido Mamba-2 Transformer MoE de 31.580 millones de parámetros de NVIDIA, entrenado con 25 billones de tokens para razonamiento unificado y tareas agénticas. Con 128 expertos y 6 activos por token más 1 experto compartido, solo se activan 3.500 millones de parámetros por pasada. El modelo soporta generación de código, llamada a herramientas y conversación multilingüe en 6 idiomas. Una ventana de contexto de 256K y "flash attention" permiten flujos de trabajo con contexto largo, con un modo de razonamiento activable para equilibrar calidad y latencia. Su arquitectura MoE se cuantiza bien en formato GGUF para despliegue autoalojado.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
Q8_0	Alta	31.28 GB	—
Q8_K_XL	Alta	37.67 GB	—
Q6_K	Alta	31.21 GB	—
Q6_K_XL	Alta	31.21 GB	—
Q5_K_M	Media	24.35 GB	—
Q5_K_S	Media	22.31 GB	—
Q5_K_XL	Media	25.62 GB	—
Q4_K_M	Media	22.89 GB	—
Q4_K_S	Media	20.51 GB	—
Q4_K_XL	Media	21.27 GB	—
Q4_0	Media	16.96 GB	—
Q4_1	Media	18.68 GB	—
Q3_K_M	Baja	18.63 GB	—
Q3_K_S	Baja	16.88 GB	—
Q3_K_XL	Baja	18.57 GB	—
Q2_K_L	Baja	16.85 GB	—
Q2_K_XL	Baja	18.55 GB	—

Última actualización: 24 de marzo de 2026