GPT OSS 20B

Multilingual Thinking Tool Calls

GPT OSS 20B es un modelo "Mixture-of-Experts" de 21.510 millones de parámetros de OpenAI, optimizado para razonamiento de baja latencia en hardware de consumo. Con 32 expertos y 4 activos por token, funciona en 16 GB de memoria gracias a la cuantización nativa MXFP4. El modelo ofrece intensidad de razonamiento configurable, llamada a funciones y conversación multilingüe en 12 idiomas. Una ventana de contexto de 128K y "flash attention" permiten tareas con documentos largos, mientras que la licencia Apache 2.0 y su baja huella activa lo hacen ideal para despliegues locales y sensibles a la latencia. Hay cuantizaciones GGUF disponibles para inferencia local con llama.cpp.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
FP16	Precisión completa	12.85 GB	—
Q8_0	Alta	11.28 GB	—
Q8_K_XL	Alta	12.29 GB	—
Q6_K	Alta	11.21 GB	—
Q6_K_XL	Alta	11.21 GB	—
Q5_K_M	Media	10.91 GB	—
Q5_K_S	Media	10.91 GB	—
Q4_K_M	Media	10.83 GB	—
Q4_K_S	Media	10.82 GB	—
Q4_K_XL	Media	11.06 GB	—
Q4_0	Media	10.71 GB	—
Q4_1	Media	10.78 GB	—
Q3_K_M	Baja	10.72 GB	—
Q3_K_S	Baja	10.68 GB	—
Q2_K	Baja	10.68 GB	—
Q2_K_L	Baja	10.95 GB	—

Última actualización: 24 de marzo de 2026