NVIDIA Nemotron 3 Super 120B A12B (Q4_K_M)auf CPU Only

Code Multilingual Thinking Tool Calls

Q4_K_M CPU Only

Überblick

NVIDIA Nemotron 3 Super 120B A12B ist ein 123.61B-Parameter moe-Sprachmodell von NVIDIA, mit Fähigkeiten in code, multilingual, thinking, tool-calls. Es unterstützt ein Kontextfenster von bis zu 262,144 Tokens.

Nemotron 3 Super 120B A12B ist ein hybrides Mamba-2-Transformer-LatentMoE-Modell mit 123,61 Milliarden Parametern von NVIDIA, das 12 Milliarden Parameter pro Token über 22 von 512 gerouteten Experten plus 1 geteiltem Experten aktiviert. Trainiert auf über 25 Billionen Tokens, zielt es auf agentisches Reasoning, Codegenerierung, Tool Calling und mehrsprachige Konversation in 7 Sprachen ab. Ein 256K-Kontextfenster, umschaltbarer Reasoning-Modus und Multi-Token-Prediction ermöglichen Hochdurchsatz-Inferenz für komplexe Multi-Agenten-Workflows. Die MoE-Architektur lässt sich gut im GGUF-Format für Self-Hosting auf Multi-GPU-Konfigurationen quantisieren.

Bei Q4_K_M-Quantisierung (Qualitätsstufe medium) wiegt das Modell 76.87 GB. Das übersteigt die 0 GB VRAM von CPU Only. Inferenz ist dennoch über CPU-Offload oder speicherabgebildetes Laden von der Festplatte möglich, allerdings mit deutlich reduzierter Leistung.

Eine reine CPU-Konfiguration ohne GPU-Beschleunigung. Die Inferenz laeuft vollstaendig auf der CPU, was erheblich langsamer ist als GPU-beschleunigte Setups, aber keine Spezialhardware erfordert. Leistung und maximale Modellgroesse haengen vom verfuegbaren Arbeitsspeicher ab. Geeignet fuer Tests, Entwicklung oder Deployments ohne verfuegbare GPU.

Hardwareanforderungen

Modellgröße	76.87 GB
Verfügbarer VRAM	0 GB
Genutzter VRAM	0 GB
System-RAM
Min. RAM benötigt	76.9 GB
GPU-Ebenen	0 / 88
Kontextgröße	262.144
Backend	cpu
Flash Attention	Nein
Lesen von Festplatte	Ja

Leistungshinweise

Bereitstellung

Befehl

helmfile --state-values-file <(curl -s https://www.prositronic.eu/values/nemotron-3-super-120b-a12b/q4_k_m/cpu.yaml) apply

Generierte `values.yaml`

/values/nemotron-3-super-120b-a12b/q4_k_m/cpu.yaml

Werte werden geladen…

llama.cpp installieren

Installieren Sie llama.cpp von den offiziellen Build-Anleitungen für Ihre Plattform und Ihr Backend.

Modell herunterladen

curl -L -o nemotron-3-super-120b-a12b.gguf "https://huggingface.co/unsloth/NVIDIA-Nemotron-3-Super-120B-A12B-GGUF/resolve/main/UD-Q4_K_M/NVIDIA-Nemotron-3-Super-120B-A12B-UD-Q4_K_M-00001-of-00003.gguf"

Server starten

llama-server \
  -m nemotron-3-super-120b-a12b.gguf \
  --n-gpu-layers 0 \
  --ctx-size 262144

Überprüfen

curl http://localhost:8080/health

Häufig gestellte Fragen

Wie viel VRAM benötigt NVIDIA Nemotron 3 Super 120B A12B (Q4_K_M)?

Die Q4_K_M-Quantisierung von NVIDIA Nemotron 3 Super 120B A12B benötigt 76.87 GB. Die 0 GB VRAM von CPU Only reichen nicht für GPU-Schichten aus, daher läuft die Inferenz auf der CPU.

Kann ich NVIDIA Nemotron 3 Super 120B A12B auf CPU Only ausführen?

Es ist möglich, aber nicht empfohlen. CPU Only hat nicht genug VRAM, um NVIDIA Nemotron 3 Super 120B A12B (Q4_K_M) zu beschleunigen, daher wird die Inferenz auf CPU und System-RAM zurückgreifen.

Was ist Quantisierung?

Quantisierung reduziert die numerische Präzision eines Modells von seinem ursprünglichen Gleitkommaformat auf eine kompaktere Darstellung. Dies verringert die Dateigröße und den VRAM-Bedarf, wodurch es möglich wird, große Modelle auf Consumer-Hardware auszuführen. Der Kompromiss ist eine geringe Verringerung der Ausgabequalität. Q4_K_M komprimiert NVIDIA Nemotron 3 Super 120B A12B von seiner ursprünglichen Größe auf 76.87 GB.

Welche Quantisierung sollte ich für NVIDIA Nemotron 3 Super 120B A12B wählen?

Q4_K_M ist eine mittelwertige Quantisierung. Hochwertigere Quants (Q8, Q6) bewahren mehr Modellgenauigkeit, benötigen aber mehr VRAM. Niedrigere Quants (Q4, Q3, Q2) reduzieren den VRAM-Verbrauch auf Kosten der Qualität. Wählen Sie basierend auf Ihrer verfügbaren Hardware und Ihren Qualitätsanforderungen.

Warum werden einige Schichten auf die CPU ausgelagert?

CPU Only hat 0 GB VRAM, aber NVIDIA Nemotron 3 Super 120B A12B (Q4_K_M) benötigt ungefähr 76.87 GB. Nur 0 von 88 Schichten passen in den VRAM; die übrigen Schichten laufen auf der CPU, was langsamer, aber funktional ist.

Was ist MoE und wie beeinflusst es die Bereitstellung?

NVIDIA Nemotron 3 Super 120B A12B verwendet eine Mixture-of-Experts (MoE)-Architektur mit 512 Experten, von denen 22 pro Token aktiv sind. Das bedeutet, dass nur ein Bruchteil der Modellgewichte bei jedem Inferenzschritt verwendet wird, wodurch MoE-Modelle bei der Gesamtparameteranzahl größer sein können und dennoch bei der Inferenz effizient bleiben.

Zuletzt aktualisiert: 12. März 2026

NVIDIA Nemotron 3 Super 120B A12B (Q4_K_M)auf CPU Only

Überblick

Hardwareanforderungen

Leistungshinweise

Bereitstellung

Befehl

Generierte values.yaml

llama.cpp installieren

Modell herunterladen

Server starten

Überprüfen

Häufig gestellte Fragen

Generierte `values.yaml`