conda部署vllm并且运行deepseek大模型

qq_57574255

509人浏览 · 2026-01-09 17:50:47

qq_57574255 · 2026-01-09 17:50:47 发布

Windows部署的化要开启虚拟化下载wsl2，linux部署就要简单很多，可以采用docker或者conda来部署，conda比较容易并且也是隔离的环境。

使用 Conda 部署 VLLM

创建 Conda 环境

建议创建一个新的 Conda 环境以避免依赖冲突。运行以下命令创建一个名为 vllm_env 的环境（Python 版本建议 3.8 或更高）：

conda create -n vllm_env python=3.8 -y
conda activate vllm_env

安装 PyTorch

VLLM 依赖 PyTorch，需根据 CUDA 版本安装对应的 PyTorch，太慢了可以添加镜像。例如，CUDA 11.8 的安装命令：

conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

安装 VLLM

通过 pip 安装 VLLM 及其依赖项：

pip install vllm

若需从源码安装（如获取最新功能）：

git clone https://github.com/vllm-project/vllm.git
cd vllm
pip install -e .

验证安装

运行以下命令检查 VLLM 是否安装成功：

python -c "from vllm import LLM; print('VLLM installed successfully')"

下载模型

国内无法科学上网可以使用魔搭社区来下载很是方便，搜索想用的模型可以直接在模型下载找到适合自己的方法来下载。

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

运行示例

启动一个测试模型（需提前下载模型）：

因为在集群部署，gpu节点没有网络设置不访问网络。

export HF_DATASETS_OFFLINE=1
export TRANSFORMERS_OFFLINE=1
export HF_HUB_OFFLINE=1


export CUDA_VISIBLE_DEVICES=0,1,2,3

四张L40并行的脚本。

python -m vllm.entrypoints.openai.api_server \
--served-model-name DeepSeek-R1-Distill-Qwen-32B-AWQ \
--model /share/home/xiexiangyu/.cache/modelscope/hub/models/Valdemardi/DeepSeek-R1-Distill-Qwen-32B-AWQ \
--host 0.0.0.0 \
--port 8765 \
--max-model-len 10240 \
--gpu-memory-utilization 0.80 \
--tensor-parallel-size 4 \
--quantization awq \
--trust-remote-code \
--max-num-batched-tokens 16384 \
--max-num-seqs 24 \
--enable-prefix-caching \
--disable-log-requests False

测试可否访问

curl http://127.0.0.1:8765/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "DeepSeek-R1-Distill-Qwen-32B-AWQ",
    "messages": [{"role": "user", "content": "你好，请简单介绍一下自己"}]
  }'

如果GPU节点ip是无法直接访问的可以添加隧道到本地。

常见问题

CUDA 版本不匹配：确保 PyTorch 的 CUDA 版本与系统一致。通过 nvcc --version 检查系统 CUDA 版本。
依赖冲突：使用新 Conda 环境可减少此类问题。若仍存在冲突，尝试 pip install --upgrade --force-reinstall vllm。
模型下载：首次运行需下载模型权重，确保网络畅通或手动下载后指定路径。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git