Llama 3.3 70B Instruct
Meta
Code Multilingual Tool Calls
Llama 3.3 70B Instruct est un transformeur dense de 70 milliards de parametres de Meta, optimise pour le suivi d'instructions, la generation de code et la conversation multilingue. Il offre des performances competitives avec les modeles plus grands de la famille Llama tout en restant pratique pour les deploiements GPU sur un seul noeud. Le modele prend en charge le "tool calling" et huit langues dont l'anglais, le francais, l'espagnol et l'allemand. Avec une fenetre de contexte de 128K et le "grouped-query attention", il se quantifie efficacement jusqu'au niveau Q4 pour une inference auto-hebergee sur du materiel grand public.
Configuration matérielle
Facultatif — pour des recommandations de déploiement précises
| Quantification | Qualité | Taille | Adéquation |
|---|---|---|---|
| FP16 | Pleine précision | 131.43 GB | — |
| Q8_0 | Élevée | 69.82 GB | — |
| Q6_K | Élevée | 53.91 GB | — |
| Q5_K_M | Moyenne | 46.52 GB | — |
| Q5_K_S | Moyenne | 45.32 GB | — |
| Q4_K_M | Moyenne | 39.6 GB | — |
| Q4_K_S | Moyenne | 37.58 GB | — |
| Q4_0 | Moyenne | 37.36 GB | — |
| Q3_K_M | Basse | 31.91 GB | — |
| Q3_K_S | Basse | 28.79 GB | — |
| Q3_K_XL | Basse | 35.45 GB | — |
| Q2_K | Basse | 24.56 GB | — |
| Q2_K_L | Basse | 25.52 GB | — |
| Q3_K_L | Basse | 34.59 GB | — |
| Q4_0_4_4 | Basse | 37.22 GB | — |
| Q4_0_4_8 | Basse | 37.22 GB | — |
| Q4_0_8_8 | Basse | 37.22 GB | — |
| Q4_K_L | Basse | 40.33 GB | — |
| Q5_K_L | Basse | 47.13 GB | — |
| Q6_K_L | Basse | 54.39 GB | — |
Dernière mise à jour : 5 mars 2026