npu环境docker部署vllm

npu环境docker部署vllm，并推理部署Qwen3-0.6B

it&s me

760人浏览 · 2025-11-11 19:48:42

it&s me · 2025-11-11 19:48:42 发布

系统环境

cat /etc/os-release
NAME="EulerOS"
VERSION="2.0 (SP10)"
ID="euleros"
VERSION_ID="2.0"
PRETTY_NAME="EulerOS 2.0 (SP10)"
ANSI_COLOR="0;31"

uname -m
aarch64

npu-smi info
# 8卡 ...

下载模型

安装git git-lfs

yum install git
wget https://github.com/git-lfs/git-lfs/releases/download/v3.7.0/git-lfs-linux-arm64-v3.7.0.tar.gz
tar -xzvf git-lfs-linux-amd64-v3.7.0.tar.gz
cd git-lfs-3.7.0/
./install.sh

下载模型

GIT_LFS_SKIP_SMUDGE=1 git clone https://gitcode.com/hf_mirrors/Qwen/Qwen3-0.6B.git
cd Qwen3-0.6B
git lfs install
nohup git lfs pull > /dev/null 2>&1 &

下载镜像

修改源 vim /etc/docker/daemon.json

{
    ...
    "registry-mirrors": [
	    "https://docker.xuanyuan.me",
	    "https://docker.1ms.run",
	    "https://mirror.ccs.tencentyun.com",
	    "https://docker-0.unsee.tech",
	    "https://docker.m.daocloud.io"
    ],
    ...
    # 把 Docker 数据放到 大容量数据盘
    "max-concurrent-downloads": 1,
    "data-root": "/data2/develop/docker/default-work"
}

重新加载 systemd 配置
```
systemctl daemon-reload
```
重启 Docker
```
systemctl restart docker
```

查看源 docker info | grep -i Mirror

 Registry Mirrors:
  https://xxx.mirror.aliyuncs.com/
  https://mirror.ccs.tencentyun.com/

下载vllm镜像

docker pull quay.io/ascend/vllm-ascend:v0.11.0rc0

vllm 推理部署 Qwen3-0.6B

docker-compose.yaml

version: '3.8'

services:
  vllm-ascend:
    image: quay.io/ascend/vllm-ascend:v0.11.0rc0
    container_name: vllm-Qwen3-0.6B
    devices:
      # 配置第8张卡单独运行
      - /dev/davinci7
      - /dev/davinci_manager
      - /dev/devmm_svm
      - /dev/hisi_hdc
    volumes:
      - /usr/local/dcmi:/usr/local/dcmi
      - /usr/local/bin/npu-smi:/usr/local/bin/npu-smi
      - /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/
      - /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info
      - /etc/ascend_install.info:/etc/ascend_install.info
      - /data2/models/Qwen3-0.6B:/data/model
    ports:
      - "8100:8000"
    restart: unless-stopped
    stdin_open: true
    tty: true
    command: >
       vllm serve /data/model
       --served-model-name Qwen3-0.6B
       --tensor-parallel-size 1
       --dtype float16
       --compilation-config '{"custom_ops":["none", "+rms_norm", "+rotary_embedding"]}'
       --max-num-seqs 4
       --max-model-len 2048
       --gpu-memory-utilization 0.8
       --trust_remote_code

chat/completions

curl --location 'http://localhost:8100/v1/chat/completions' \
--header 'Content-Type: application/json' \
--data '{
    "model": "Qwen3-0.6B",
    "messages": [
        {
            "role": "user",
            "content": "你好，你是谁，简单自我介绍一下"
        }
    ],
    "top_p": 0.95,
    "stream": true,
    "stream_options": {
        "include_usage": true,
        "continuous_usage_stats": true
    }
}'

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git