GPT OSS 20B
OpenAI
Multilingual Thinking Tool Calls
GPT OSS 20B es un modelo "Mixture-of-Experts" de 21.510 millones de parámetros de OpenAI, optimizado para razonamiento de baja latencia en hardware de consumo. Con 32 expertos y 4 activos por token, funciona en 16 GB de memoria gracias a la cuantización nativa MXFP4. El modelo ofrece intensidad de razonamiento configurable, llamada a funciones y conversación multilingüe en 12 idiomas. Una ventana de contexto de 128K y "flash attention" permiten tareas con documentos largos, mientras que la licencia Apache 2.0 y su baja huella activa lo hacen ideal para despliegues locales y sensibles a la latencia. Hay cuantizaciones GGUF disponibles para inferencia local con llama.cpp.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| FP16 | Precisión completa | 12.85 GB | — |
| Q8_0 | Alta | 11.28 GB | — |
| Q8_K_XL | Alta | 12.29 GB | — |
| Q6_K | Alta | 11.21 GB | — |
| Q6_K_XL | Alta | 11.21 GB | — |
| Q5_K_M | Media | 10.91 GB | — |
| Q5_K_S | Media | 10.91 GB | — |
| Q4_K_M | Media | 10.83 GB | — |
| Q4_K_S | Media | 10.82 GB | — |
| Q4_K_XL | Media | 11.06 GB | — |
| Q4_0 | Media | 10.71 GB | — |
| Q4_1 | Media | 10.78 GB | — |
| Q3_K_M | Baja | 10.72 GB | — |
| Q3_K_S | Baja | 10.68 GB | — |
| Q2_K | Baja | 10.68 GB | — |
| Q2_K_L | Baja | 10.95 GB | — |
Última actualización: 5 de marzo de 2026