Llama 3.3 70B Instruct
Meta
Code Multilingual Tool Calls
Llama 3.3 70B Instruct ist ein dichter Transformer mit 70 Milliarden Parametern von Meta, optimiert fuer Instruktionsbefolgung, Codegenerierung und mehrsprachige Konversation. Er liefert eine Leistung, die mit groesseren Modellen der Llama-Familie konkurriert, und bleibt dabei praktisch fuer Single-Node-GPU-Deployments. Das Modell unterstuetzt Tool Calling und acht Sprachen, darunter Englisch, Franzoesisch, Spanisch und Deutsch. Mit einem 128K-Kontextfenster und Grouped-Query Attention quantisiert es effizient bis auf Q4-Stufen fuer selbstgehostete Inferenz auf Consumer-Hardware.
Hardwarekonfiguration
Optional — für präzise Bereitstellungsempfehlungen
| Quantisierung | Qualität | Größe | Eignung |
|---|---|---|---|
| FP16 | Volle Präzision | 131.43 GB | — |
| Q8_0 | Hoch | 69.82 GB | — |
| Q6_K | Hoch | 53.91 GB | — |
| Q5_K_M | Mittel | 46.52 GB | — |
| Q5_K_S | Mittel | 45.32 GB | — |
| Q4_K_M | Mittel | 39.6 GB | — |
| Q4_K_S | Mittel | 37.58 GB | — |
| Q4_0 | Mittel | 37.36 GB | — |
| Q3_K_M | Niedrig | 31.91 GB | — |
| Q3_K_S | Niedrig | 28.79 GB | — |
| Q3_K_XL | Niedrig | 35.45 GB | — |
| Q2_K | Niedrig | 24.56 GB | — |
| Q2_K_L | Niedrig | 25.52 GB | — |
| Q3_K_L | Niedrig | 34.59 GB | — |
| Q4_0_4_4 | Niedrig | 37.22 GB | — |
| Q4_0_4_8 | Niedrig | 37.22 GB | — |
| Q4_0_8_8 | Niedrig | 37.22 GB | — |
| Q4_K_L | Niedrig | 40.33 GB | — |
| Q5_K_L | Niedrig | 47.13 GB | — |
| Q6_K_L | Niedrig | 54.39 GB | — |
Zuletzt aktualisiert: 5. März 2026