Windows部署的化要开启虚拟化下载wsl2,linux部署就要简单很多,可以采用docker或者conda来部署,conda比较容易并且也是隔离的环境。

使用 Conda 部署 VLLM

创建 Conda 环境

建议创建一个新的 Conda 环境以避免依赖冲突。运行以下命令创建一个名为 vllm_env 的环境(Python 版本建议 3.8 或更高):

conda create -n vllm_env python=3.8 -y
conda activate vllm_env
安装 PyTorch

VLLM 依赖 PyTorch,需根据 CUDA 版本安装对应的 PyTorch,太慢了可以添加镜像。例如,CUDA 11.8 的安装命令:

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia
安装 VLLM

通过 pip 安装 VLLM 及其依赖项:

pip install vllm

若需从源码安装(如获取最新功能):

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .
验证安装

运行以下命令检查 VLLM 是否安装成功:

python -c "from vllm import LLM; print('VLLM installed successfully')"

下载模型

国内无法科学上网可以使用魔搭社区来下载很是方便,搜索想用的模型可以直接在模型下载找到适合自己的方法来下载。

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B
运行示例

启动一个测试模型(需提前下载模型):

因为在集群部署,gpu节点没有网络设置不访问网络。

export HF_DATASETS_OFFLINE=1
export TRANSFORMERS_OFFLINE=1
export HF_HUB_OFFLINE=1


export CUDA_VISIBLE_DEVICES=0,1,2,3

四张L40并行的脚本。

python -m vllm.entrypoints.openai.api_server \
--served-model-name DeepSeek-R1-Distill-Qwen-32B-AWQ \
--model /share/home/xiexiangyu/.cache/modelscope/hub/models/Valdemardi/DeepSeek-R1-Distill-Qwen-32B-AWQ \
--host 0.0.0.0 \
--port 8765 \
--max-model-len 10240 \
--gpu-memory-utilization 0.80 \
--tensor-parallel-size 4 \
--quantization awq \
--trust-remote-code \
--max-num-batched-tokens 16384 \
--max-num-seqs 24 \
--enable-prefix-caching \
--disable-log-requests False

测试可否访问

curl http://127.0.0.1:8765/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "DeepSeek-R1-Distill-Qwen-32B-AWQ",
    "messages": [{"role": "user", "content": "你好,请简单介绍一下自己"}]
  }'

如果GPU节点ip是无法直接访问的可以添加隧道到本地。

常见问题
  • CUDA 版本不匹配:确保 PyTorch 的 CUDA 版本与系统一致。通过 nvcc --version 检查系统 CUDA 版本。
  • 依赖冲突:使用新 Conda 环境可减少此类问题。若仍存在冲突,尝试 pip install --upgrade --force-reinstall vllm
  • 模型下载:首次运行需下载模型权重,确保网络畅通或手动下载后指定路径。
Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐