Llama 3.3 70B Instruct
Meta
Code Multilingual Tool Calls
Llama 3.3 70B Instruct e un trasformatore denso da 70 miliardi di parametri di Meta, ottimizzato per il seguimento di istruzioni, la generazione di codice e la conversazione multilingue. Offre prestazioni competitive con modelli piu grandi della famiglia Llama, rimanendo pratico per deployment GPU su singolo nodo. Il modello supporta il "tool calling" e otto lingue tra cui inglese, francese, spagnolo e tedesco. Con una finestra di contesto da 128K e "grouped-query attention", si quantizza in modo efficiente fino a livelli Q4 per inferenza self-hosted su hardware consumer.
Configurazione hardware
Facoltativo — per raccomandazioni di distribuzione precise
| Quantizzazione | Qualità | Dimensione | Adeguatezza |
|---|---|---|---|
| FP16 | Piena precisione | 131.43 GB | — |
| Q8_0 | Alta | 69.82 GB | — |
| Q6_K | Alta | 53.91 GB | — |
| Q5_K_M | Media | 46.52 GB | — |
| Q5_K_S | Media | 45.32 GB | — |
| Q4_K_M | Media | 39.6 GB | — |
| Q4_K_S | Media | 37.58 GB | — |
| Q4_0 | Media | 37.36 GB | — |
| Q3_K_M | Bassa | 31.91 GB | — |
| Q3_K_S | Bassa | 28.79 GB | — |
| Q3_K_XL | Bassa | 35.45 GB | — |
| Q2_K | Bassa | 24.56 GB | — |
| Q2_K_L | Bassa | 25.52 GB | — |
| Q3_K_L | Bassa | 34.59 GB | — |
| Q4_0_4_4 | Bassa | 37.22 GB | — |
| Q4_0_4_8 | Bassa | 37.22 GB | — |
| Q4_0_8_8 | Bassa | 37.22 GB | — |
| Q4_K_L | Bassa | 40.33 GB | — |
| Q5_K_L | Bassa | 47.13 GB | — |
| Q6_K_L | Bassa | 54.39 GB | — |
Ultimo aggiornamento: 5 marzo 2026