Ir al contenido

GPT OSS 120B

OpenAI
Multilingual Thinking Tool Calls

GPT OSS 120B es un modelo "Mixture-of-Experts" de 120.410 millones de parámetros de OpenAI, entrenado con destilación a gran escala y aprendizaje por refuerzo para razonamiento agéntico. Con 128 expertos y 4 activos por token, cabe en una sola GPU de 80 GB gracias a la cuantización nativa MXFP4 de los pesos MoE. El modelo soporta intensidad de razonamiento configurable, llamada a funciones y conversación multilingüe en 12 idiomas. Su ventana de contexto de 128K y "flash attention" permiten flujos de trabajo con documentos largos, con licencia Apache 2.0 para uso comercial sin restricciones. Hay cuantizaciones GGUF disponibles para inferencia autoalojada con llama.cpp.

Configuración de hardware

Opcional — para recomendaciones de despliegue precisas
Cuantización Calidad Tamaño Ajuste
FP16 Precisión completa 60.88 GB
Q8_0 Alta 59.03 GB
Q8_K_XL Alta 60.04 GB
Q6_K Alta 58.93 GB
Q6_K_XL Alta 58.93 GB
Q5_K_M Media 58.57 GB
Q5_K_S Media 58.56 GB
Q4_K_M Media 58.46 GB
Q4_K_S Media 58.45 GB
Q4_K_XL Media 58.69 GB
Q4_0 Media 58.32 GB
Q4_1 Media 58.41 GB
Q3_K_M Baja 58.32 GB
Q3_K_S Baja 58.27 GB
Q2_K Baja 58.27 GB
Q2_K_L Baja 58.54 GB
Última actualización: 5 de marzo de 2026