Llama 3.3 70B Instruct

Code Multilingual Tool Calls

Llama 3.3 70B Instruct e un trasformatore denso da 70 miliardi di parametri di Meta, ottimizzato per il seguimento di istruzioni, la generazione di codice e la conversazione multilingue. Offre prestazioni competitive con modelli piu grandi della famiglia Llama, rimanendo pratico per deployment GPU su singolo nodo. Il modello supporta il "tool calling" e otto lingue tra cui inglese, francese, spagnolo e tedesco. Con una finestra di contesto da 128K e "grouped-query attention", si quantizza in modo efficiente fino a livelli Q4 per inferenza self-hosted su hardware consumer.

Configurazione hardware

Produttore

Prodotto

Piattaforma

Famiglia

Modello

VRAM

RAM di sistema (GB) Facoltativo — per raccomandazioni di distribuzione precise

Quantizzazione	Qualità	Dimensione	Adeguatezza
FP16	Piena precisione	131.43 GB	—
Q8_0	Alta	69.82 GB	—
Q6_K	Alta	53.91 GB	—
Q5_K_M	Media	46.52 GB	—
Q5_K_S	Media	45.32 GB	—
Q4_K_M	Media	39.6 GB	—
Q4_K_S	Media	37.58 GB	—
Q4_0	Media	37.36 GB	—
Q3_K_M	Bassa	31.91 GB	—
Q3_K_S	Bassa	28.79 GB	—
Q3_K_XL	Bassa	35.45 GB	—
Q2_K	Bassa	24.56 GB	—
Q2_K_L	Bassa	25.52 GB	—
Q3_K_L	Bassa	34.59 GB	—
Q4_0_4_4	Bassa	37.22 GB	—
Q4_0_4_8	Bassa	37.22 GB	—
Q4_0_8_8	Bassa	37.22 GB	—
Q4_K_L	Bassa	40.33 GB	—
Q5_K_L	Bassa	47.13 GB	—
Q6_K_L	Bassa	54.39 GB	—

Ultimo aggiornamento: 5 marzo 2026