NVIDIA Nemotron 3 Super 120B A12B
NVIDIA
Code Multilingual Thinking Tool Calls
Nemotron 3 Super 120B A12B es un modelo híbrido Mamba-2 Transformer LatentMoE de 123.610 millones de parámetros de NVIDIA, que activa 12.000 millones de parámetros por token a través de 22 de 512 expertos enrutados más 1 experto compartido. Entrenado con más de 25 billones de tokens, se orienta al razonamiento agéntico, generación de código, llamada a herramientas y conversación multilingüe en 7 idiomas. Una ventana de contexto de 256K, modo de razonamiento activable y predicción multi-token permiten inferencia de alto rendimiento para flujos de trabajo multi-agente complejos. Su arquitectura MoE se cuantiza bien en formato GGUF para despliegue autoalojado en configuraciones multi-GPU.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| MXFP4_MOE | Muy alta | 76.42 GB | — |
| Q8_0 | Alta | 119.65 GB | — |
| Q8_K_XL | Alta | 123.39 GB | — |
| Q6_K | Alta | 106.87 GB | — |
| Q6_K_XL | Alta | 109.75 GB | — |
| Q5_K_M | Media | 99.97 GB | — |
| Q5_K_S | Media | 83.56 GB | — |
| Q5_K_XL | Media | 100.19 GB | — |
| Q4_K_M | Media | 76.87 GB | — |
| Q4_K_S | Media | 73.59 GB | — |
| Q4_K_XL | Media | 78.02 GB | — |
| Q3_K_M | Baja | 57.48 GB | — |
| Q3_K_S | Baja | 57.48 GB | — |
| Q3_K_XL | Baja | 58.33 GB | — |
| Q2_K_XL | Baja | 50.9 GB | — |
Última actualización: 12 de marzo de 2026