Llama 3.3 70B Instruct

Code Multilingual Tool Calls

Llama 3.3 70B Instruct est un transformeur dense de 70 milliards de parametres de Meta, optimise pour le suivi d'instructions, la generation de code et la conversation multilingue. Il offre des performances competitives avec les modeles plus grands de la famille Llama tout en restant pratique pour les deploiements GPU sur un seul noeud. Le modele prend en charge le "tool calling" et huit langues dont l'anglais, le francais, l'espagnol et l'allemand. Avec une fenetre de contexte de 128K et le "grouped-query attention", il se quantifie efficacement jusqu'au niveau Q4 pour une inference auto-hebergee sur du materiel grand public.

Configuration matérielle

Fabricant

Produit

Plateforme

Famille

Modèle

VRAM

RAM système (Go) Facultatif — pour des recommandations de déploiement précises

Quantification	Qualité	Taille	Adéquation
FP16	Pleine précision	131.43 GB	—
Q8_0	Élevée	69.82 GB	—
Q6_K	Élevée	53.91 GB	—
Q5_K_M	Moyenne	46.52 GB	—
Q5_K_S	Moyenne	45.32 GB	—
Q4_K_M	Moyenne	39.6 GB	—
Q4_K_S	Moyenne	37.58 GB	—
Q4_0	Moyenne	37.36 GB	—
Q3_K_M	Basse	31.91 GB	—
Q3_K_S	Basse	28.79 GB	—
Q3_K_XL	Basse	35.45 GB	—
Q2_K	Basse	24.56 GB	—
Q2_K_L	Basse	25.52 GB	—
Q3_K_L	Basse	34.59 GB	—
Q4_0_4_4	Basse	37.22 GB	—
Q4_0_4_8	Basse	37.22 GB	—
Q4_0_8_8	Basse	37.22 GB	—
Q4_K_L	Basse	40.33 GB	—
Q5_K_L	Basse	47.13 GB	—
Q6_K_L	Basse	54.39 GB	—

Dernière mise à jour : 5 mars 2026