用anaconda  conda环境部署 前提是装好anaconda(在Linux系统中)并且下载模型到自己的指定位置

创建一个conda环境  与系统环境隔离 避免驱动什么的冲突

conda create -n  name python=3.10

激活环境

conda activate name

安装vllm

pip install vllm

然后启动

CUDA_VISIBLE_DEVICES=0,1 python -m vllm.entrypoints.openai.api_server --model ./path/deepseek_model --port 8000 --tensor-parallel-size 2

CUDA_VISIBLE_DEVICES=0,1 表示让程序看到设备 ID 为 0 和 1 的两个 GPU,同时 #--tensor-parallel-size 2 表示使用 2 个 GPU 进行张量并行计算,以加速推理过程。 #其中./path/deepseek_model 指定模型文件路径,替换为本地自己的,--port 可自定义端口。

测试

调用curl http://127.0.0.1:8000/v1/completions -H "Content-Type: application/json" -d '{ "model": "自己下载模型位置", "prompt": "你好", "max_tokens": 1000, "temperature": 0 }'

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐