Qwen3 Next 80B A3B Thinking
Qwen3 Next 80B A3B Thinking est un modèle "Mixture-of-Experts" axé sur le raisonnement de l'équipe Qwen d'Alibaba avec 81,32 milliards de paramètres totaux, optimisé pour l'inférence "chain-of-thought" sur des tâches complexes de mathématiques, logique et programmation. Seuls environ 3 milliards de paramètres s'activent par token en sollicitant 10 des 512 experts, atteignant de solides performances de raisonnement à une fraction du coût de calcul des alternatives denses. Le modèle prend en charge la génération de code, le "tool calling" et 13 langues dont l'anglais et le chinois. Avec une fenêtre de contexte de 262K et le "flash attention", il traite nativement de longues traces de raisonnement et se quantifie bien au format GGUF pour un déploiement auto-hébergé.
Configuration matérielle
| Quantification | Qualité | Taille | Adéquation |
|---|---|---|---|
| Q8_0 | Élevée | 78.99 GB | — |
| Q8_K_XL | Élevée | 86.69 GB | — |
| Q6_K | Élevée | 61.04 GB | — |
| Q6_K_XL | Élevée | 63.81 GB | — |
| Q5_K_M | Moyenne | 52.91 GB | — |
| Q5_K_S | Moyenne | 51.24 GB | — |
| Q5_K_XL | Moyenne | 52.77 GB | — |
| Q4_K_M | Moyenne | 45.17 GB | — |
| Q4_K_S | Moyenne | 42.38 GB | — |
| Q4_K_XL | Moyenne | 42.78 GB | — |
| Q4_0 | Moyenne | 42.2 GB | — |
| Q4_1 | Moyenne | 46.61 GB | — |
| Q3_K_M | Basse | 35.67 GB | — |
| Q3_K_S | Basse | 32.21 GB | — |
| Q3_K_XL | Basse | 33.06 GB | — |
| Q2_K | Basse | 27.17 GB | — |
| Q2_K_L | Basse | 27.24 GB | — |
| Q2_K_XL | Basse | 28.06 GB | — |