ollama和vllm部署deepseek大模型的区别

2026-01-23 400 words One minute

Contents

一般民用显卡的显存都是在16GB以内，如果选择部署DeepSeek大模型大家只能选择16G大小以内的模型。这种模型一般都是蒸馏或者量化版本的模型。

例如对于模型: DeepSeek-R1-Distill-Qwen-14B

为什么都是千问的蒸馏模型，大小差距这么多呢，因为Ollama的是量化4bit的(Q4_K_M)模型，但是hf-mirror上面的是原始的bf16bit。

一般模型的quantization为： 3bit, 4bit, 6bit, 8bit, bf16

所以16bit量化为4bit体积缩小了近3/4。所以Ollama部署的DeepSeek模型只适合测试环境使用。