Ir al contenido

NVIDIA Nemotron 3 Nano 30B A3B

NVIDIA
Code Multilingual Thinking Tool Calls

Nemotron 3 Nano 30B A3B es un modelo híbrido Mamba-2 Transformer MoE de 31.580 millones de parámetros de NVIDIA, entrenado con 25 billones de tokens para razonamiento unificado y tareas agénticas. Con 128 expertos y 6 activos por token más 1 experto compartido, solo se activan 3.500 millones de parámetros por pasada. El modelo soporta generación de código, llamada a herramientas y conversación multilingüe en 6 idiomas. Una ventana de contexto de 256K y "flash attention" permiten flujos de trabajo con contexto largo, con un modo de razonamiento activable para equilibrar calidad y latencia. Su arquitectura MoE se cuantiza bien en formato GGUF para despliegue autoalojado.

Configuración de hardware

Opcional — para recomendaciones de despliegue precisas
Cuantización Calidad Tamaño Ajuste
Q8_0 Alta 31.28 GB
Q8_K_XL Alta 37.67 GB
Q6_K Alta 31.21 GB
Q6_K_XL Alta 31.21 GB
Q5_K_M Media 24.35 GB
Q5_K_S Media 22.31 GB
Q5_K_XL Media 25.62 GB
Q4_K_M Media 22.89 GB
Q4_K_S Media 20.51 GB
Q4_K_XL Media 21.27 GB
Q4_0 Media 16.96 GB
Q4_1 Media 18.68 GB
Q3_K_M Baja 18.63 GB
Q3_K_S Baja 16.88 GB
Q3_K_XL Baja 18.57 GB
Q2_K_L Baja 16.85 GB
Q2_K_XL Baja 18.55 GB
Última actualización: 5 de marzo de 2026