Salta ai contenuti

Qwen3.5 9B (Q8_0)su CPU Only

Qwen
Code Multilingual Thinking Tool Calls Vision
Q8_0 CPU Only

Panoramica

Qwen3.5 9B è un modello linguistico dense da 9.65B parametri di Qwen, con capacità di code, multilingual, thinking, tool-calls, vision. Supporta una finestra di contesto fino a 262,144 token.

Qwen3.5 9B è il modello di punta di piccole dimensioni nella famiglia Qwen 3.5 di Alibaba con architettura ibrida Gated Delta Networks e 9,65 miliardi di parametri, superando gpt-oss-120B su GPQA Diamond con 81,7 contro 80,1 con tredici volte meno parametri. È nativamente multimodale, elaborando testo, immagini e video, con capacità di ragionamento integrate per l'inferenza « chain-of-thought ». Il modello supporta una finestra di contesto da 262K e copre oltre 201 lingue. Rilasciato sotto licenza Apache 2.0, funziona con circa 5 GB di VRAM in Q4, rendendolo una scelta di primo livello per il deployment self-hosted su hardware consumer.

Con la quantizzazione Q8_0 (livello di qualità high), il modello pesa 8.87 GB. Questo supera i 0 GB di VRAM di CPU Only. L'inferenza è comunque possibile tramite scaricamento su CPU o caricamento mappato in memoria dal disco, ma con prestazioni notevolmente ridotte.

Una configurazione solo CPU senza accelerazione GPU. L'inferenza viene eseguita interamente sulla CPU, il che e notevolmente piu lento rispetto alle configurazioni con GPU, ma non richiede hardware specializzato. Prestazioni e dimensione massima del modello dipendono dalla RAM disponibile. Adatta a test, sviluppo o deployment dove non e disponibile una GPU.

Requisiti Hardware

Dimensione del modello 8.87 GB
VRAM disponibile 0 GB
VRAM utilizzata 0 GB
RAM min richiesta 8.9 GB
Livelli GPU 0 / 32
Dimensione del contesto 262.144
Backend cpu
Flash attention No

Note sulle prestazioni

Distribuzione

Comando

helmfile --state-values-file <(curl -s https://www.prositronic.eu/values/qwen3-5-9b/q8_0/cpu.yaml) apply

File values.yaml

/values/qwen3-5-9b/q8_0/cpu.yaml

Caricamento valori…

Domande frequenti

Quanta VRAM serve per Qwen3.5 9B (Q8_0)?

La quantizzazione Q8_0 di Qwen3.5 9B richiede 8.87 GB. I 0 GB di VRAM di CPU Only sono insufficienti per i livelli GPU, quindi l'inferenza viene eseguita sulla CPU.

Posso eseguire Qwen3.5 9B su CPU Only?

È possibile ma non consigliato. CPU Only non ha abbastanza VRAM per accelerare Qwen3.5 9B (Q8_0), quindi l'inferenza si baserà su CPU e RAM di sistema.

Cos'è la quantizzazione?

La quantizzazione riduce la precisione numerica di un modello dal suo formato originale in virgola mobile a una rappresentazione più compatta. Questo riduce la dimensione del file e l'impronta VRAM, rendendo possibile eseguire modelli di grandi dimensioni su hardware consumer. Il compromesso è una leggera riduzione della qualità dell'output. Q8_0 comprime Qwen3.5 9B dalla sua dimensione originale a 8.87 GB.

Quale quantizzazione scegliere per Qwen3.5 9B?

Q8_0 è una quantizzazione di alta qualità. I quant di qualità superiore (Q8, Q6) preservano maggiore precisione del modello ma necessitano di più VRAM. I quant inferiori (Q4, Q3, Q2) riducono l'uso di VRAM a scapito della qualità. Scegli in base al tuo hardware disponibile e ai requisiti di qualità.

Perché alcuni livelli vengono scaricati sulla CPU?

CPU Only ha 0 GB di VRAM, ma Qwen3.5 9B (Q8_0) richiede circa 8.87 GB. Solo 0 dei 32 livelli entrano nella VRAM; i livelli rimanenti vengono eseguiti sulla CPU, che è più lenta ma funzionale.

Come eseguire Qwen3.5 9B (Q8_0) con Ollama?

Esegui ollama run qwen3.5:9b-q8_0 per avviare Qwen3.5 9B (Q8_0). Ollama scarica automaticamente i pesi del modello al primo avvio.

Ultimo aggiornamento: 13 marzo 2026