DeepSeek R1 Distill Qwen 32B (Q8_0)su CPU Only
Panoramica
DeepSeek R1 Distill Qwen 32B è un modello linguistico dense da 32.76B parametri di DeepSeek, con capacità di code, multilingual, thinking, tool-calls. Supporta una finestra di contesto fino a 131,072 token.
DeepSeek R1 Distill Qwen 32B e un trasformatore denso da 32,76 miliardi di parametri di DeepSeek, distillato dal modello di ragionamento R1 piu grande in un'architettura basata su Qwen. Eccelle nel ragionamento "chain-of-thought", nella generazione di codice e nei compiti multilingue con capacita di pensiero integrate. Rispetto ai modelli instruct standard di classe 30B, offre un ragionamento logico e matematico piu forte. Il modello supporta nove lingue e una finestra di contesto da 128K, rendendolo adatto a sviluppatori e ricercatori che necessitano di inferenza focalizzata sul ragionamento su configurazioni GPU di fascia media.
Con la quantizzazione Q8_0 (livello di qualità high), il modello pesa 32.43 GB. Questo supera i 0 GB di VRAM di CPU Only. L'inferenza è comunque possibile tramite scaricamento su CPU o caricamento mappato in memoria dal disco, ma con prestazioni notevolmente ridotte.
Una configurazione solo CPU senza accelerazione GPU. L'inferenza viene eseguita interamente sulla CPU, il che e notevolmente piu lento rispetto alle configurazioni con GPU, ma non richiede hardware specializzato. Prestazioni e dimensione massima del modello dipendono dalla RAM disponibile. Adatta a test, sviluppo o deployment dove non e disponibile una GPU.
Requisiti Hardware
| Dimensione del modello | 32.43 GB |
| VRAM disponibile | 0 GB |
| VRAM utilizzata | 0 GB |
| RAM di sistema | |
| RAM min richiesta | 32.4 GB |
| Livelli GPU | 0 / 64 |
| Dimensione del contesto | 131.072 |
| Backend | cpu |
| Flash attention | No |
| Lettura da disco | Sì |
Note sulle prestazioni
Distribuzione
Comando
helmfile --state-values-file <(curl -s https://www.prositronic.eu/values/deepseek-r1-distill-qwen-32b/q8_0/cpu.yaml) apply
File values.yaml
/values/deepseek-r1-distill-qwen-32b/q8_0/cpu.yaml
Caricamento valori…
Domande frequenti
Quanta VRAM serve per DeepSeek R1 Distill Qwen 32B (Q8_0)?
La quantizzazione Q8_0 di DeepSeek R1 Distill Qwen 32B richiede 32.43 GB. I 0 GB di VRAM di CPU Only sono insufficienti per i livelli GPU, quindi l'inferenza viene eseguita sulla CPU.
Posso eseguire DeepSeek R1 Distill Qwen 32B su CPU Only?
È possibile ma non consigliato. CPU Only non ha abbastanza VRAM per accelerare DeepSeek R1 Distill Qwen 32B (Q8_0), quindi l'inferenza si baserà su CPU e RAM di sistema.
Cos'è la quantizzazione?
La quantizzazione riduce la precisione numerica di un modello dal suo formato originale in virgola mobile a una rappresentazione più compatta. Questo riduce la dimensione del file e l'impronta VRAM, rendendo possibile eseguire modelli di grandi dimensioni su hardware consumer. Il compromesso è una leggera riduzione della qualità dell'output. Q8_0 comprime DeepSeek R1 Distill Qwen 32B dalla sua dimensione originale a 32.43 GB.
Quale quantizzazione scegliere per DeepSeek R1 Distill Qwen 32B?
Q8_0 è una quantizzazione di alta qualità. I quant di qualità superiore (Q8, Q6) preservano maggiore precisione del modello ma necessitano di più VRAM. I quant inferiori (Q4, Q3, Q2) riducono l'uso di VRAM a scapito della qualità. Scegli in base al tuo hardware disponibile e ai requisiti di qualità.
Perché alcuni livelli vengono scaricati sulla CPU?
CPU Only ha 0 GB di VRAM, ma DeepSeek R1 Distill Qwen 32B (Q8_0) richiede circa 32.43 GB. Solo 0 dei 64 livelli entrano nella VRAM; i livelli rimanenti vengono eseguiti sulla CPU, che è più lenta ma funzionale.
Come eseguire DeepSeek R1 Distill Qwen 32B (Q8_0) con Ollama?
Esegui ollama run deepseek-r1:32b-qwen-distill-q8_0 per avviare DeepSeek R1 Distill Qwen 32B (Q8_0). Ollama scarica automaticamente i pesi del modello al primo avvio.