vllm多卡部署开源模型（一）

背景：最近准备私有化一个语言模型，在问题理解，意图分析，数据组合等业务上，进行更好的理解，记录一下过程。【未完待续，吃饭中。4. embedding模型。5. rerank模型。

MY_JVM

3132人浏览 · 2025-01-03 12:05:49

MY_JVM · 2025-01-03 12:05:49 发布

背景：最近准备私有化一个语言模型，在问题理解，意图分析，数据组合等业务上，进行更好的理解，记录一下过程，还部署了一些常用的框架，前端的dify，ollama-webui等，本文以后台模型为主

1. 服务器准备

显卡：A800-80GB * 3卡

内存：300G

CPU：42 vCPU

2. 软件环境

PyTorch 2.3.0
Python 3.12(ubuntu22.04)
Cuda 12.1
vllm

vLLM 是一个快速且易于使用的 LLM 推理和服务库

开源地址：https://github.com/vllm-project/vllm
文档地址：Welcome to vLLM! — vLLM
版本：0.6.5

安装命令

操作系统：Linux
Python：3.9 - 3.12
GPU：计算能力7.0或更高（例如V100、T4、RTX20xx、A100、L4、H100等）

pip install vllm

命令示例

vllm serve "modelId" --tensor-parallel-size 1 --port=8001

# 相关参数示例
usage: vllm serve [-h] [--host HOST] [--port PORT]
                  [--uvicorn-log-level {debug,info,warning,error,critical,trace}]
                  [--allow-credentials] [--allowed-origins ALLOWED_ORIGINS]
                  [--allowed-methods ALLOWED_METHODS]
                  [--allowed-headers ALLOWED_HEADERS] [--api-key API_KEY]
                  [--lora-modules LORA_MODULES [LORA_MODULES ...]]
                  [--prompt-adapters PROMPT_ADAPTERS [PROMPT_ADAPTERS ...]]

# --host
# 主机名

# --port
# 端口号
# 默认值： 8000

# --uvicorn-log-level
# 可能的选择：调试、信息、警告、错误、严重、跟踪

# uvicorn 的日志级别
# 默认值：“info”

# --allow-credentials
# 允许凭证
# 默认值：False

text-embeddings-inference

是一个用于部署和提供开源文本嵌入和序列分类模型的工具包。TEI 可实现最流行模型的高性能提取，包括 FlagEmbedding、Ember、GTE 和 E5。TEI 实现了许多功能
开源地址：https://github.com/vllm-project/vllm

文档地址：Welcome to vLLM! — vLLM

版本：1.6.0
docker安装
model=BAAI/bge-large-en-v1.5
volume=$PWD/data 

docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:1.6 --model-id $model

Ollama Web UI Lite

Ollama Web UI Lite 是Ollama Web UI的精简版，旨在提供简化的用户界面，功能最少，复杂性降低

dify

Dify 是一个开源的 LLM 应用开发平台。其直观的界面结合了 AI 工作流、RAG 管道、Agent、模型管理、可观测性功能等，可以快速从原型到生产

3. 模型

Qwen2.5-72B-Instruct

大小：148GB
地址：https://huggingface.co/Qwen/Qwen2.5-72B-Instruct/tree/main

部署效果：

Qwen2.5-72B-Instruct-AWQ

大小：38.7GB
地址：https://huggingface.co/Qwen/Qwen2.5-72B-Instruct-AWQ

部署效果：

QwQ-32B-Preview

大小：61GB
地址：https://huggingface.co/Qwen/QwQ-32B-Preview

部署效果：

embedding模型

bert-base-chinese
大小：1.59GB
地址：https://huggingface.co/google-bert/bert-base-chinese

部署效果

由于服务器的原因，安装GPU启动环境失败，只能在CPU上运行了，如果服务器不是docker中安装的liunx安装GPU环境是没问题的
运行命令
text-embeddings-router --model-id bert-base-chinese --port 8091

rerank模型

bge-reranker-large
大小：6.27GB
地址：https://huggingface.co/BAAI/bge-reranker-large

部署效果
运行命令
text-embeddings-router --model-id bge-reranker-large --port 8090

系统性能

GPU

显存

CPU

内存

最终效果

dify

ollama-webui-lite

python

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git