NVIDIA Nemotron 3 Nano 4B
NVIDIA
Code Thinking Tool Calls
Nemotron 3 Nano 4B es un modelo denso híbrido Mamba-2/Transformer de 3.970 millones de parámetros de NVIDIA, comprimido a partir del modelo más grande 9B Nano v2. Soporta un modo de pensamiento activable, llamada a herramientas y generación de código para tareas agénticas y de razonamiento. Una ventana de contexto de 262K y flash attention permiten flujos de trabajo con contexto largo en hardware modesto. Las cuantificaciones GGUF van de 2 a 8 GB, lo que lo hace ideal para dispositivos en el borde y GPUs de consumo con memoria limitada.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| BF16 | Precisión completa | 7.96 GB | — |
| Q8_0 | Alta | 4.23 GB | — |
| Q8_K_XL | Alta | 5.63 GB | — |
| Q6_K | Alta | 4.06 GB | — |
| Q6_K_XL | Alta | 4.56 GB | — |
| Q5_K_M | Media | 3.16 GB | — |
| Q5_K_S | Media | 3.11 GB | — |
| Q5_K_XL | Media | 3.31 GB | — |
| Q4_K_M | Media | 2.9 GB | — |
| Q4_K_S | Media | 2.83 GB | — |
| Q4_K_XL | Media | 3.13 GB | — |
| IQ4_NL | Media | 2.57 GB | — |
| IQ4_XS | Media | 2.54 GB | — |
| Q4_0 | Media | 2.53 GB | — |
| Q4_1 | Media | 2.71 GB | — |
| Q3_K_M | Baja | 2.46 GB | — |
| Q3_K_S | Baja | 2.36 GB | — |
| Q3_K_XL | Baja | 2.68 GB | — |
| IQ3_XXS | Baja | 2.39 GB | — |
| Q2_K_XL | Baja | 2.5 GB | — |
| IQ2_M | Baja | 2.3 GB | — |
| IQ2_XXS | Baja | 2.18 GB | — |
Última actualización: 17 de marzo de 2026