Ir al contenido

NVIDIA Nemotron 3 Super 120B A12B

NVIDIA
Code Multilingual Thinking Tool Calls

Nemotron 3 Super 120B A12B es un modelo híbrido Mamba-2 Transformer LatentMoE de 123.610 millones de parámetros de NVIDIA, que activa 12.000 millones de parámetros por token a través de 22 de 512 expertos enrutados más 1 experto compartido. Entrenado con más de 25 billones de tokens, se orienta al razonamiento agéntico, generación de código, llamada a herramientas y conversación multilingüe en 7 idiomas. Una ventana de contexto de 256K, modo de razonamiento activable y predicción multi-token permiten inferencia de alto rendimiento para flujos de trabajo multi-agente complejos. Su arquitectura MoE se cuantiza bien en formato GGUF para despliegue autoalojado en configuraciones multi-GPU.

Configuración de hardware

Opcional — para recomendaciones de despliegue precisas
Cuantización Calidad Tamaño Ajuste
MXFP4_MOE Muy alta 76.42 GB
Q8_0 Alta 119.65 GB
Q8_K_XL Alta 123.39 GB
Q6_K Alta 106.87 GB
Q6_K_XL Alta 109.75 GB
Q5_K_M Media 99.97 GB
Q5_K_S Media 83.56 GB
Q5_K_XL Media 100.19 GB
Q4_K_M Media 76.87 GB
Q4_K_S Media 73.59 GB
Q4_K_XL Media 78.02 GB
Q3_K_M Baja 57.48 GB
Q3_K_S Baja 57.48 GB
Q3_K_XL Baja 58.33 GB
Q2_K_XL Baja 50.9 GB
Última actualización: 12 de marzo de 2026