GPT OSS 120B

Multilingual Thinking Tool Calls

GPT OSS 120B es un modelo "Mixture-of-Experts" de 120.410 millones de parámetros de OpenAI, entrenado con destilación a gran escala y aprendizaje por refuerzo para razonamiento agéntico. Con 128 expertos y 4 activos por token, cabe en una sola GPU de 80 GB gracias a la cuantización nativa MXFP4 de los pesos MoE. El modelo soporta intensidad de razonamiento configurable, llamada a funciones y conversación multilingüe en 12 idiomas. Su ventana de contexto de 128K y "flash attention" permiten flujos de trabajo con documentos largos, con licencia Apache 2.0 para uso comercial sin restricciones. Hay cuantizaciones GGUF disponibles para inferencia autoalojada con llama.cpp.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
FP16	Precisión completa	60.88 GB	—
Q8_0	Alta	59.03 GB	—
Q8_K_XL	Alta	60.04 GB	—
Q6_K	Alta	58.93 GB	—
Q6_K_XL	Alta	58.93 GB	—
Q5_K_M	Media	58.57 GB	—
Q5_K_S	Media	58.56 GB	—
Q4_K_M	Media	58.46 GB	—
Q4_K_S	Media	58.45 GB	—
Q4_K_XL	Media	58.69 GB	—
Q4_0	Media	58.32 GB	—
Q4_1	Media	58.41 GB	—
Q3_K_M	Baja	58.32 GB	—
Q3_K_S	Baja	58.27 GB	—
Q2_K	Baja	58.27 GB	—
Q2_K_L	Baja	58.54 GB	—

Última actualización: 29 de abril de 2026