GPT OSS 120B
OpenAI
Multilingual Thinking Tool Calls
GPT OSS 120B es un modelo "Mixture-of-Experts" de 120.410 millones de parámetros de OpenAI, entrenado con destilación a gran escala y aprendizaje por refuerzo para razonamiento agéntico. Con 128 expertos y 4 activos por token, cabe en una sola GPU de 80 GB gracias a la cuantización nativa MXFP4 de los pesos MoE. El modelo soporta intensidad de razonamiento configurable, llamada a funciones y conversación multilingüe en 12 idiomas. Su ventana de contexto de 128K y "flash attention" permiten flujos de trabajo con documentos largos, con licencia Apache 2.0 para uso comercial sin restricciones. Hay cuantizaciones GGUF disponibles para inferencia autoalojada con llama.cpp.
Configuración de hardware
Opcional — para recomendaciones de despliegue precisas
| Cuantización | Calidad | Tamaño | Ajuste |
|---|---|---|---|
| FP16 | Precisión completa | 60.88 GB | — |
| Q8_0 | Alta | 59.03 GB | — |
| Q8_K_XL | Alta | 60.04 GB | — |
| Q6_K | Alta | 58.93 GB | — |
| Q6_K_XL | Alta | 58.93 GB | — |
| Q5_K_M | Media | 58.57 GB | — |
| Q5_K_S | Media | 58.56 GB | — |
| Q4_K_M | Media | 58.46 GB | — |
| Q4_K_S | Media | 58.45 GB | — |
| Q4_K_XL | Media | 58.69 GB | — |
| Q4_0 | Media | 58.32 GB | — |
| Q4_1 | Media | 58.41 GB | — |
| Q3_K_M | Baja | 58.32 GB | — |
| Q3_K_S | Baja | 58.27 GB | — |
| Q2_K | Baja | 58.27 GB | — |
| Q2_K_L | Baja | 58.54 GB | — |
Última actualización: 5 de marzo de 2026