NVIDIA Nemotron 3 Super 120B A12B

Code Multilingual Thinking Tool Calls

Nemotron 3 Super 120B A12B es un modelo híbrido Mamba-2 Transformer LatentMoE de 123.610 millones de parámetros de NVIDIA, que activa 12.000 millones de parámetros por token a través de 22 de 512 expertos enrutados más 1 experto compartido. Entrenado con más de 25 billones de tokens, se orienta al razonamiento agéntico, generación de código, llamada a herramientas y conversación multilingüe en 7 idiomas. Una ventana de contexto de 256K, modo de razonamiento activable y predicción multi-token permiten inferencia de alto rendimiento para flujos de trabajo multi-agente complejos. Su arquitectura MoE se cuantiza bien en formato GGUF para despliegue autoalojado en configuraciones multi-GPU.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
Q8_0	Alta	119.65 GB	—
Q8_K_XL	Alta	123.39 GB	—
Q6_K	Alta	106.87 GB	—
Q6_K_XL	Alta	109.75 GB	—
Q5_K_M	Media	99.97 GB	—
Q5_K_S	Media	83.56 GB	—
Q5_K_XL	Media	100.19 GB	—
Q4_K_M	Media	76.87 GB	—
Q4_K_S	Media	73.59 GB	—
Q4_K_XL	Media	78.02 GB	—
MXFP4_MOE	Media	76.42 GB	—
Q3_K_M	Baja	57.48 GB	—
Q3_K_S	Baja	57.48 GB	—
Q3_K_XL	Baja	58.33 GB	—
Q2_K_XL	Baja	50.9 GB	—

Última actualización: 29 de abril de 2026