NVIDIA Nemotron 3 Nano 4B

Code Thinking Tool Calls

Nemotron 3 Nano 4B es un modelo denso híbrido Mamba-2/Transformer de 3.970 millones de parámetros de NVIDIA, comprimido a partir del modelo más grande 9B Nano v2. Soporta un modo de pensamiento activable, llamada a herramientas y generación de código para tareas agénticas y de razonamiento. Una ventana de contexto de 262K y flash attention permiten flujos de trabajo con contexto largo en hardware modesto. Las cuantificaciones GGUF van de 2 a 8 GB, lo que lo hace ideal para dispositivos en el borde y GPUs de consumo con memoria limitada.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
BF16	Precisión completa	7.96 GB	—
Q8_0	Alta	4.23 GB	—
Q8_K_XL	Alta	5.63 GB	—
Q6_K	Alta	4.06 GB	—
Q6_K_XL	Alta	4.56 GB	—
Q5_K_M	Media	3.16 GB	—
Q5_K_S	Media	3.11 GB	—
Q5_K_XL	Media	3.31 GB	—
Q4_K_M	Media	2.9 GB	—
Q4_K_S	Media	2.83 GB	—
Q4_K_XL	Media	3.13 GB	—
IQ4_NL	Media	2.57 GB	—
IQ4_XS	Media	2.54 GB	—
Q4_0	Media	2.53 GB	—
Q4_1	Media	2.71 GB	—
Q3_K_M	Baja	2.46 GB	—
Q3_K_S	Baja	2.36 GB	—
Q3_K_XL	Baja	2.68 GB	—
IQ3_XXS	Baja	2.39 GB	—
Q2_K_XL	Baja	2.5 GB	—
IQ2_M	Baja	2.3 GB	—
IQ2_XXS	Baja	2.18 GB	—

Última actualización: 24 de marzo de 2026