Ir al contenido

GPT OSS 20B

OpenAI
Multilingual Thinking Tool Calls

GPT OSS 20B es un modelo "Mixture-of-Experts" de 21.510 millones de parámetros de OpenAI, optimizado para razonamiento de baja latencia en hardware de consumo. Con 32 expertos y 4 activos por token, funciona en 16 GB de memoria gracias a la cuantización nativa MXFP4. El modelo ofrece intensidad de razonamiento configurable, llamada a funciones y conversación multilingüe en 12 idiomas. Una ventana de contexto de 128K y "flash attention" permiten tareas con documentos largos, mientras que la licencia Apache 2.0 y su baja huella activa lo hacen ideal para despliegues locales y sensibles a la latencia. Hay cuantizaciones GGUF disponibles para inferencia local con llama.cpp.

Configuración de hardware

Opcional — para recomendaciones de despliegue precisas
Cuantización Calidad Tamaño Ajuste
FP16 Precisión completa 12.85 GB
Q8_0 Alta 11.28 GB
Q8_K_XL Alta 12.29 GB
Q6_K Alta 11.21 GB
Q6_K_XL Alta 11.21 GB
Q5_K_M Media 10.91 GB
Q5_K_S Media 10.91 GB
Q4_K_M Media 10.83 GB
Q4_K_S Media 10.82 GB
Q4_K_XL Media 11.06 GB
Q4_0 Media 10.71 GB
Q4_1 Media 10.78 GB
Q3_K_M Baja 10.72 GB
Q3_K_S Baja 10.68 GB
Q2_K Baja 10.68 GB
Q2_K_L Baja 10.95 GB
Última actualización: 5 de marzo de 2026