Llama 3.3 70B Instruct

Code Multilingual Tool Calls

Llama 3.3 70B Instruct ist ein dichter Transformer mit 70 Milliarden Parametern von Meta, optimiert fuer Instruktionsbefolgung, Codegenerierung und mehrsprachige Konversation. Er liefert eine Leistung, die mit groesseren Modellen der Llama-Familie konkurriert, und bleibt dabei praktisch fuer Single-Node-GPU-Deployments. Das Modell unterstuetzt Tool Calling und acht Sprachen, darunter Englisch, Franzoesisch, Spanisch und Deutsch. Mit einem 128K-Kontextfenster und Grouped-Query Attention quantisiert es effizient bis auf Q4-Stufen fuer selbstgehostete Inferenz auf Consumer-Hardware.

Hardwarekonfiguration

Hersteller

Produkt

Plattform

Familie

Modell

VRAM

System-RAM (GB) Optional — für präzise Bereitstellungsempfehlungen

Quantisierung	Qualität	Größe	Eignung
FP16	Volle Präzision	131.43 GB	—
Q8_0	Hoch	69.82 GB	—
Q6_K	Hoch	53.91 GB	—
Q5_K_M	Mittel	46.52 GB	—
Q5_K_S	Mittel	45.32 GB	—
Q4_K_M	Mittel	39.6 GB	—
Q4_K_S	Mittel	37.58 GB	—
Q4_0	Mittel	37.36 GB	—
Q3_K_M	Niedrig	31.91 GB	—
Q3_K_S	Niedrig	28.79 GB	—
Q3_K_XL	Niedrig	35.45 GB	—
Q2_K	Niedrig	24.56 GB	—
Q2_K_L	Niedrig	25.52 GB	—
Q3_K_L	Niedrig	34.59 GB	—
Q4_0_4_4	Niedrig	37.22 GB	—
Q4_0_4_8	Niedrig	37.22 GB	—
Q4_0_8_8	Niedrig	37.22 GB	—
Q4_K_L	Niedrig	40.33 GB	—
Q5_K_L	Niedrig	47.13 GB	—
Q6_K_L	Niedrig	54.39 GB	—

Zuletzt aktualisiert: 5. März 2026