Llama 4 Maverick 17B 128E Instruct (Q4_K_M) — 49.3 GBauf OVH ai1-1-GPU

Überblick

Llama 4 Maverick 17B 128E Instruct ist ein 396.58B-Parameter moe-Sprachmodell von Meta, mit Fähigkeiten in code, multilingual, tool-calls, vision. Es unterstützt ein Kontextfenster von bis zu 1,048,576 Tokens.

Llama 4 Maverick 17B 128E Instruct ist ein grosses Mixture-of-Experts-Modell von Meta mit 17 Milliarden Parametern pro Experte und 128 Experten, wobei ein Experte pro Token aktiviert wird -- insgesamt rund 400 Milliarden Parameter. Es liefert Spitzenleistungen bei Vision, Codegenerierung und mehrsprachigen Aufgaben in 12 Sprachen. Maverick bildet die leistungsstarke Stufe der Llama-4-Familie und tauscht hoehere Speicheranforderungen gegen staerkere Benchmark-Ergebnisse. Mit einem 1M-Token-Kontextfenster erfordert es Multi-GPU-Setups, laesst sich aber bis auf Q2-Stufen quantisieren.

Bei Q4_K_M-Quantisierung (Qualitätsstufe medium) wiegt das Modell 226.1 GB. Das übersteigt die 32 GB VRAM von OVH ai1-1-GPU. Inferenz ist dennoch über CPU-Offload oder speicherabgebildetes Laden von der Festplatte möglich, allerdings mit deutlich reduzierter Leistung.

Hardwareanforderungen

Modellgröße	226.1 GB
Verfügbarer VRAM	32 GB
Genutzter VRAM	49.3 GB
System-RAM	40 GB
Min. RAM benötigt	226.1 GB
GPU-Ebenen	0 / 48
Kontextgröße	262.144
Backend	cuda13
Flash Attention	Nein
Lesen von Festplatte	Ja

Leistungshinweise

Bereitstellung

Voraussetzungen

Stellen Sie sicher, dass Ihre GPU-Knoten mit dem NVIDIA Container Toolkit vorbereitet sind:

ansible-playbook prositronic.infra.nvidia_container_toolkit

Befehl

helmfile --state-values-file <(curl -s https://www.prositronic.eu/values/llama-4-maverick-17b-128e-instruct/q4_k_m/nvidia-v100s.yaml) apply

Generierte `values.yaml`

/values/llama-4-maverick-17b-128e-instruct/q4_k_m/nvidia-v100s.yaml

Werte werden geladen…

llama.cpp installieren

Installieren Sie llama.cpp von den offiziellen Build-Anleitungen für Ihre Plattform und Ihr Backend.

Modell herunterladen

curl -L -o llama-4-maverick-17b-128e-instruct.gguf "https://huggingface.co/unsloth/Llama-4-Maverick-17B-128E-Instruct-GGUF/resolve/main/Q4_K_M/Llama-4-Maverick-17B-128E-Instruct-Q4_K_M-00001-of-00005.gguf"

Server starten

llama-server \
  -m llama-4-maverick-17b-128e-instruct.gguf \
  --n-gpu-layers 0 \
  --ctx-size 262144

Überprüfen

curl http://localhost:8080/health

Häufig gestellte Fragen

Wie viel VRAM benötigt Llama 4 Maverick 17B 128E Instruct (Q4_K_M)?

Die Q4_K_M-Quantisierung von Llama 4 Maverick 17B 128E Instruct benötigt 226.1 GB. Die 32 GB VRAM von OVH ai1-1-GPU reichen nicht für GPU-Schichten aus, daher läuft die Inferenz auf der CPU.

Kann ich Llama 4 Maverick 17B 128E Instruct auf OVH ai1-1-GPU ausführen?

Es ist möglich, aber nicht empfohlen. OVH ai1-1-GPU hat nicht genug VRAM, um Llama 4 Maverick 17B 128E Instruct (Q4_K_M) zu beschleunigen, daher wird die Inferenz auf CPU und System-RAM zurückgreifen.

Was ist Quantisierung?

Quantisierung reduziert die numerische Präzision eines Modells von seinem ursprünglichen Gleitkommaformat auf eine kompaktere Darstellung. Dies verringert die Dateigröße und den VRAM-Bedarf, wodurch es möglich wird, große Modelle auf Consumer-Hardware auszuführen. Der Kompromiss ist eine geringe Verringerung der Ausgabequalität. Q4_K_M komprimiert Llama 4 Maverick 17B 128E Instruct von seiner ursprünglichen Größe auf 226.1 GB.

Welche Quantisierung sollte ich für Llama 4 Maverick 17B 128E Instruct wählen?

Q4_K_M ist eine mittelwertige Quantisierung. Hochwertigere Quants (Q8, Q6) bewahren mehr Modellgenauigkeit, benötigen aber mehr VRAM. Niedrigere Quants (Q4, Q3, Q2) reduzieren den VRAM-Verbrauch auf Kosten der Qualität. Wählen Sie basierend auf Ihrer verfügbaren Hardware und Ihren Qualitätsanforderungen.

Warum werden einige Schichten auf die CPU ausgelagert?

OVH ai1-1-GPU hat 32 GB VRAM, aber Llama 4 Maverick 17B 128E Instruct (Q4_K_M) benötigt ungefähr 226.1 GB. Nur 0 von 48 Schichten passen in den VRAM; die übrigen Schichten laufen auf der CPU, was langsamer, aber funktional ist.

Was ist MoE und wie beeinflusst es die Bereitstellung?

Llama 4 Maverick 17B 128E Instruct verwendet eine Mixture-of-Experts (MoE)-Architektur mit 128 Experten, von denen 1 pro Token aktiv sind. Das bedeutet, dass nur ein Bruchteil der Modellgewichte bei jedem Inferenzschritt verwendet wird, wodurch MoE-Modelle bei der Gesamtparameteranzahl größer sein können und dennoch bei der Inferenz effizient bleiben.

Wie führe ich Llama 4 Maverick 17B 128E Instruct (Q4_K_M) mit Ollama aus?

Führen Sie ollama run llama4:17b-maverick-128e-instruct-q4_k_m aus, um Llama 4 Maverick 17B 128E Instruct (Q4_K_M) zu starten. Ollama lädt die Modellgewichte beim ersten Start automatisch herunter.

Zuletzt aktualisiert: 5. März 2026

Llama 4 Maverick 17B 128E Instruct (Q4_K_M) — 49.3 GBauf OVH ai1-1-GPU

Überblick

Hardwareanforderungen

Leistungshinweise

Bereitstellung

Voraussetzungen

Befehl

Generierte values.yaml

llama.cpp installieren

Modell herunterladen

Server starten

Überprüfen

Häufig gestellte Fragen

Generierte `values.yaml`