Llama 3.3 70B Instruct

Code Multilingual Tool Calls

Llama 3.3 70B Instruct es un transformador denso de 70.000 millones de parametros de Meta, optimizado para el seguimiento de instrucciones, la generacion de codigo y la conversacion multilingue. Ofrece un rendimiento competitivo con modelos mas grandes de la familia Llama manteniendo la practicidad para despliegues GPU en un solo nodo. El modelo soporta "tool calling" y ocho idiomas, incluidos ingles, frances, espanol y aleman. Con una ventana de contexto de 128K y "grouped-query attention", se cuantiza eficientemente hasta niveles Q4 para inferencia autoalojada en hardware de consumo.

Configuración de hardware

Fabricante

Producto

Plataforma

Familia

Modelo

VRAM

RAM del sistema (GB) Opcional — para recomendaciones de despliegue precisas

Cuantización	Calidad	Tamaño	Ajuste
FP16	Precisión completa	131.43 GB	—
Q8_0	Alta	69.82 GB	—
Q6_K	Alta	53.91 GB	—
Q5_K_M	Media	46.52 GB	—
Q5_K_S	Media	45.32 GB	—
Q4_K_M	Media	39.6 GB	—
Q4_K_S	Media	37.58 GB	—
Q4_0	Media	37.36 GB	—
Q3_K_M	Baja	31.91 GB	—
Q3_K_S	Baja	28.79 GB	—
Q3_K_XL	Baja	35.45 GB	—
Q2_K	Baja	24.56 GB	—
Q2_K_L	Baja	25.52 GB	—
Q3_K_L	Baja	34.59 GB	—
Q4_0_4_4	Baja	37.22 GB	—
Q4_0_4_8	Baja	37.22 GB	—
Q4_0_8_8	Baja	37.22 GB	—
Q4_K_L	Baja	40.33 GB	—
Q5_K_L	Baja	47.13 GB	—
Q6_K_L	Baja	54.39 GB	—

Última actualización: 29 de abril de 2026