Llama 4 Maverick 17B 128E Instruct (Q2_K)auf CPU Only
Überblick
Llama 4 Maverick 17B 128E Instruct ist ein 396.58B-Parameter moe-Sprachmodell von Meta, mit Fähigkeiten in code, multilingual, tool-calls, vision. Es unterstützt ein Kontextfenster von bis zu 1,048,576 Tokens.
Llama 4 Maverick 17B 128E Instruct ist ein grosses Mixture-of-Experts-Modell von Meta mit 17 Milliarden Parametern pro Experte und 128 Experten, wobei ein Experte pro Token aktiviert wird -- insgesamt rund 400 Milliarden Parameter. Es liefert Spitzenleistungen bei Vision, Codegenerierung und mehrsprachigen Aufgaben in 12 Sprachen. Maverick bildet die leistungsstarke Stufe der Llama-4-Familie und tauscht hoehere Speicheranforderungen gegen staerkere Benchmark-Ergebnisse. Mit einem 1M-Token-Kontextfenster erfordert es Multi-GPU-Setups, laesst sich aber bis auf Q2-Stufen quantisieren.
Bei Q2_K-Quantisierung (Qualitätsstufe low) wiegt das Modell 135.64 GB. Das übersteigt die 0 GB VRAM von CPU Only. Inferenz ist dennoch über CPU-Offload oder speicherabgebildetes Laden von der Festplatte möglich, allerdings mit deutlich reduzierter Leistung.
Eine reine CPU-Konfiguration ohne GPU-Beschleunigung. Die Inferenz laeuft vollstaendig auf der CPU, was erheblich langsamer ist als GPU-beschleunigte Setups, aber keine Spezialhardware erfordert. Leistung und maximale Modellgroesse haengen vom verfuegbaren Arbeitsspeicher ab. Geeignet fuer Tests, Entwicklung oder Deployments ohne verfuegbare GPU.
Hardwareanforderungen
| Modellgröße | 135.64 GB |
| Verfügbarer VRAM | 0 GB |
| Genutzter VRAM | 0 GB |
| System-RAM | |
| Min. RAM benötigt | 135.6 GB |
| GPU-Ebenen | 0 / 48 |
| Kontextgröße | 1.048.576 |
| Backend | cpu |
| Flash Attention | Nein |
| Lesen von Festplatte | Ja |
Leistungshinweise
Bereitstellung
Befehl
helmfile --state-values-file <(curl -s https://www.prositronic.eu/values/llama-4-maverick-17b-128e-instruct/q2_k/cpu.yaml) apply
Generierte values.yaml
/values/llama-4-maverick-17b-128e-instruct/q2_k/cpu.yaml
Werte werden geladen…
Häufig gestellte Fragen
Wie viel VRAM benötigt Llama 4 Maverick 17B 128E Instruct (Q2_K)?
Die Q2_K-Quantisierung von Llama 4 Maverick 17B 128E Instruct benötigt 135.64 GB. Die 0 GB VRAM von CPU Only reichen nicht für GPU-Schichten aus, daher läuft die Inferenz auf der CPU.
Kann ich Llama 4 Maverick 17B 128E Instruct auf CPU Only ausführen?
Es ist möglich, aber nicht empfohlen. CPU Only hat nicht genug VRAM, um Llama 4 Maverick 17B 128E Instruct (Q2_K) zu beschleunigen, daher wird die Inferenz auf CPU und System-RAM zurückgreifen.
Was ist Quantisierung?
Quantisierung reduziert die numerische Präzision eines Modells von seinem ursprünglichen Gleitkommaformat auf eine kompaktere Darstellung. Dies verringert die Dateigröße und den VRAM-Bedarf, wodurch es möglich wird, große Modelle auf Consumer-Hardware auszuführen. Der Kompromiss ist eine geringe Verringerung der Ausgabequalität. Q2_K komprimiert Llama 4 Maverick 17B 128E Instruct von seiner ursprünglichen Größe auf 135.64 GB.
Welche Quantisierung sollte ich für Llama 4 Maverick 17B 128E Instruct wählen?
Q2_K ist eine niedrigwertige Quantisierung. Hochwertigere Quants (Q8, Q6) bewahren mehr Modellgenauigkeit, benötigen aber mehr VRAM. Niedrigere Quants (Q4, Q3, Q2) reduzieren den VRAM-Verbrauch auf Kosten der Qualität. Wählen Sie basierend auf Ihrer verfügbaren Hardware und Ihren Qualitätsanforderungen.
Warum werden einige Schichten auf die CPU ausgelagert?
CPU Only hat 0 GB VRAM, aber Llama 4 Maverick 17B 128E Instruct (Q2_K) benötigt ungefähr 135.64 GB. Nur 0 von 48 Schichten passen in den VRAM; die übrigen Schichten laufen auf der CPU, was langsamer, aber funktional ist.
Was ist MoE und wie beeinflusst es die Bereitstellung?
Llama 4 Maverick 17B 128E Instruct verwendet eine Mixture-of-Experts (MoE)-Architektur mit 128 Experten, von denen 1 pro Token aktiv sind. Das bedeutet, dass nur ein Bruchteil der Modellgewichte bei jedem Inferenzschritt verwendet wird, wodurch MoE-Modelle bei der Gesamtparameteranzahl größer sein können und dennoch bei der Inferenz effizient bleiben.
Wie führe ich Llama 4 Maverick 17B 128E Instruct (Q2_K) mit Ollama aus?
Führen Sie ollama run llama4:17b-maverick-128e-instruct-q2_k aus, um Llama 4 Maverick 17B 128E Instruct (Q2_K) zu starten. Ollama lädt die Modellgewichte beim ersten Start automatisch herunter.