Contents

ollama和vllm部署deepseek大模型的区别

Contents

一般民用显卡的显存都是在16GB以内,如果选择部署DeepSeek大模型大家只能选择16G大小以内的模型。这种模型一般都是蒸馏或者量化版本的模型。

例如对于模型: DeepSeek-R1-Distill-Qwen-14B

Ollama上面的大小大概为9GB(https://ollama.com/library/deepseek-r1:14b),而从hf-mirror镜像网站的看到的大小为30G左右(https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B/tree/main)。

为什么都是千问的蒸馏模型,大小差距这么多呢,因为Ollama的是量化4bit的(Q4_K_M)模型,但是hf-mirror上面的是原始的bf16bit。

一般模型的quantization为: 3bit, 4bit, 6bit, 8bit, bf16

所以16bit量化为4bit体积缩小了近3/4。所以Ollama部署的DeepSeek模型只适合测试环境使用。