conda部署vllm并且运行deepseek大模型
·
Windows部署的化要开启虚拟化下载wsl2,linux部署就要简单很多,可以采用docker或者conda来部署,conda比较容易并且也是隔离的环境。
使用 Conda 部署 VLLM
创建 Conda 环境
建议创建一个新的 Conda 环境以避免依赖冲突。运行以下命令创建一个名为 vllm_env 的环境(Python 版本建议 3.8 或更高):
conda create -n vllm_env python=3.8 -y
conda activate vllm_env
安装 PyTorch
VLLM 依赖 PyTorch,需根据 CUDA 版本安装对应的 PyTorch,太慢了可以添加镜像。例如,CUDA 11.8 的安装命令:
conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
安装 VLLM
通过 pip 安装 VLLM 及其依赖项:
pip install vllm
若需从源码安装(如获取最新功能):
git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .
验证安装
运行以下命令检查 VLLM 是否安装成功:
python -c "from vllm import LLM; print('VLLM installed successfully')"

下载模型
国内无法科学上网可以使用魔搭社区来下载很是方便,搜索想用的模型可以直接在模型下载找到适合自己的方法来下载。

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
运行示例
启动一个测试模型(需提前下载模型):
因为在集群部署,gpu节点没有网络设置不访问网络。
export HF_DATASETS_OFFLINE=1
export TRANSFORMERS_OFFLINE=1
export HF_HUB_OFFLINE=1
export CUDA_VISIBLE_DEVICES=0,1,2,3
四张L40并行的脚本。
python -m vllm.entrypoints.openai.api_server \
--served-model-name DeepSeek-R1-Distill-Qwen-32B-AWQ \
--model /share/home/xiexiangyu/.cache/modelscope/hub/models/Valdemardi/DeepSeek-R1-Distill-Qwen-32B-AWQ \
--host 0.0.0.0 \
--port 8765 \
--max-model-len 10240 \
--gpu-memory-utilization 0.80 \
--tensor-parallel-size 4 \
--quantization awq \
--trust-remote-code \
--max-num-batched-tokens 16384 \
--max-num-seqs 24 \
--enable-prefix-caching \
--disable-log-requests False
测试可否访问
curl http://127.0.0.1:8765/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "DeepSeek-R1-Distill-Qwen-32B-AWQ",
"messages": [{"role": "user", "content": "你好,请简单介绍一下自己"}]
}'
如果GPU节点ip是无法直接访问的可以添加隧道到本地。
常见问题
- CUDA 版本不匹配:确保 PyTorch 的 CUDA 版本与系统一致。通过
nvcc --version检查系统 CUDA 版本。 - 依赖冲突:使用新 Conda 环境可减少此类问题。若仍存在冲突,尝试
pip install --upgrade --force-reinstall vllm。 - 模型下载:首次运行需下载模型权重,确保网络畅通或手动下载后指定路径。
更多推荐
所有评论(0)