ollama和vllm部署deepseek大模型的区别
Contents
一般民用显卡的显存都是在16GB以内,如果选择部署DeepSeek大模型大家只能选择16G大小以内的模型。这种模型一般都是蒸馏或者量化版本的模型。
例如对于模型: DeepSeek-R1-Distill-Qwen-14B
Ollama上面的大小大概为9GB(https://ollama.com/library/deepseek-r1:14b),而从hf-mirror镜像网站的看到的大小为30G左右(https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-14B/tree/main)。
为什么都是千问的蒸馏模型,大小差距这么多呢,因为Ollama的是量化4bit的(Q4_K_M)模型,但是hf-mirror上面的是原始的bf16bit。
一般模型的quantization为: 3bit, 4bit, 6bit, 8bit, bf16
所以16bit量化为4bit体积缩小了近3/4。所以Ollama部署的DeepSeek模型只适合测试环境使用。