Qwen3-ASR-1.7B部署指南：3步完成Linux环境配置

六号牙医

294人浏览 · 2026-02-17 00:12:30

六号牙医 · 2026-02-17 00:12:30 发布

Qwen3-ASR-1.7B部署指南：3步完成Linux环境配置

最近语音识别领域又有了新动静，阿里开源的Qwen3-ASR-1.7B模型表现相当亮眼。这个模型不仅能识别30种语言和22种中文方言，还能处理长达20分钟的音频，最厉害的是在复杂场景下依然保持稳定。如果你手头正好有Linux服务器和一块16GB显存的GPU，今天我就带你走一遍完整的部署流程，从环境准备到服务启动，一步步搞定。

很多人可能觉得部署这种大模型很复杂，其实跟着步骤走，整个过程也就半小时左右。我最近在项目里用上了这个模型，发现它的识别准确度确实不错，特别是对带口音的普通话和方言，比之前用的一些开源方案要好不少。

1. 环境准备：打好基础才能跑得稳

部署之前，先把环境准备好，这步做好了后面会顺利很多。我建议用Ubuntu 20.04或22.04，这两个版本兼容性最好，社区支持也最全。

1.1 系统要求检查

先看看你的机器配置够不够。Qwen3-ASR-1.7B对硬件要求不算特别高，但有几个关键点要注意：

GPU显存：至少16GB，这是硬性要求。模型本身大概需要14-15GB，留点余量给系统和其他进程。我用的是RTX 4090 24GB，跑起来很轻松。
CUDA版本：建议11.8或12.1，这两个版本我都试过，都没问题。太老的版本可能不支持一些新特性。
Python版本：3.8到3.11都可以，我用的是3.10，比较稳定。
内存：32GB以上比较稳妥，处理长音频时内存占用会高一些。

怎么检查这些配置呢？几个命令就能搞定：

# 查看GPU信息
nvidia-smi

# 查看CUDA版本
nvcc --version

# 查看Python版本
python3 --version

# 查看内存
free -h

如果nvidia-smi命令找不到，说明驱动没装好，得先装NVIDIA驱动。这个网上教程很多，我就不细说了。

1.2 创建虚拟环境

我强烈建议用虚拟环境，这样不会把系统环境搞乱，以后卸载也干净。用conda或者venv都行，我个人习惯用venv，更轻量。

# 创建虚拟环境
python3 -m venv qwen_asr_env

# 激活环境
source qwen_asr_env/bin/activate

激活后，命令行前面会出现(qwen_asr_env)的提示，说明已经在虚拟环境里了。以后每次要用这个环境，都需要先激活。

1.3 安装基础依赖

接下来安装一些基础包，这些都是后面要用到的：

# 升级pip
pip install --upgrade pip

# 安装PyTorch（根据你的CUDA版本选择）
# CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# CUDA 12.1  
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

# 安装其他基础依赖
pip install numpy soundfile

安装PyTorch时要注意版本匹配，装错了后面会报各种奇怪的错误。如果不知道自己的CUDA版本，可以运行nvidia-smi查看，右上角会显示CUDA版本。

2. 模型下载与配置：把模型请回家

环境准备好了，现在该把模型下载下来了。Qwen3-ASR-1.7B可以从好几个地方下载，我推荐用ModelScope，国内下载速度比较快。

2.1 设置缓存路径

模型文件不小，有3-4GB，最好指定一个专门的目录存放，方便管理：

# 设置ModelScope缓存路径
export MODELSCOPE_CACHE=/path/to/your/cache
echo 'export MODELSCOPE_CACHE=/path/to/your/cache' >> ~/.bashrc

# 设置HuggingFace缓存路径（备用）
export HF_HUB_CACHE=/path/to/your/cache/hf
echo 'export HF_HUB_CACHE=/path/to/your/cache/hf' >> ~/.bashrc

# 让设置生效
source ~/.bashrc

这里的/path/to/your/cache换成你实际的路径，比如/home/username/models。我习惯放在/data/models下面，空间大不容易满。

2.2 安装ModelScope

ModelScope是阿里出的模型管理工具，用起来挺方便的：

pip install modelscope

如果下载慢，可以试试换国内源：

pip install modelscope -i https://mirrors.aliyun.com/pypi/simple/

2.3 下载模型

现在可以下载模型了，命令很简单：

# 下载1.7B版本
modelscope download --model Qwen/Qwen3-ASR-1.7B

# 如果想试试小一点的版本，也可以下载0.6B
# modelscope download --model Qwen/Qwen3-ASR-0.6B

下载过程可能需要一段时间，取决于你的网络速度。我这边大概花了20分钟。下载完成后，模型会保存在你刚才设置的MODELSCOPE_CACHE路径下。

怎么确认下载成功了呢？可以检查一下文件：

ls $MODELSCOPE_CACHE/models/Qwen/Qwen3-ASR-1.7B/

应该能看到一堆.safetensors文件和一个config.json，这些就是模型文件了。

3. 服务启动与测试：让模型跑起来

模型下载好了，现在该让它干活了。Qwen3-ASR支持两种使用方式：直接调用和启动API服务。我建议先试试直接调用，确认模型能正常工作，再启动服务。

3.1 安装推理框架

Qwen3-ASR用了vLLM做推理加速，需要单独安装：

pip install -U qwen-asr[vllm]

这个命令会安装qwen-asr包和vLLM后端。如果安装过程中报错，可能是CUDA版本不匹配，可以尝试指定vLLM版本：

pip install vllm==0.3.3
pip install qwen-asr

3.2 简单测试脚本

先写个简单的测试脚本，看看模型能不能正常识别语音：

import torch
from qwen_asr import Qwen3ASRModel
import os

# 设置模型路径
model_path = os.path.join(
    os.environ.get("MODELSCOPE_CACHE", ""), 
    "models", 
    "Qwen", 
    "Qwen3-ASR-1.7B"
)

# 加载模型
model = Qwen3ASRModel.from_pretrained(
    model_path,
    dtype=torch.bfloat16,  # 用bfloat16节省显存
    device_map="cuda:0",   # 使用第一块GPU
    max_inference_batch_size=32,
    max_new_tokens=256,
)

# 测试识别
results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None,  # 自动检测语言，也可以指定如"English"
)

print(f"检测到的语言: {results[0].language}")
print(f"识别结果: {results[0].text}")

把这段代码保存为test_asr.py，然后运行：

python test_asr.py

如果一切正常，你会看到输出类似这样：

检测到的语言: English
识别结果: This is a test audio for speech recognition.

第一次运行可能会慢一些，因为要加载模型到显存。我这边大概用了1分钟左右。如果报显存不足的错误，可以试试把dtype改成torch.float16，或者用0.6B的版本。

3.3 启动API服务

测试通过了，现在启动正式的API服务。这样其他程序就能通过HTTP请求来调用语音识别了：

# 使用模型名称启动
qwen-asr-serve Qwen/Qwen3-ASR-1.7B \
    --gpu-memory-utilization 0.8 \
    --host 0.0.0.0 \
    --port 8000

# 或者使用本地路径
# qwen-asr-serve /path/to/Qwen3-ASR-1.7B \
#     --gpu-memory-utilization 0.8 \
#     --host 0.0.0.0 \
#     --port 8000

参数解释一下：

--gpu-memory-utilization 0.8：使用80%的GPU显存，留点余量给系统
--host 0.0.0.0：监听所有网络接口
--port 8000：使用8000端口

服务启动后，会看到类似这样的输出：

INFO:     Started server process [12345]
INFO:     Waiting for application startup.
INFO:     Application startup complete.
INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

3.4 测试API服务

服务起来了，用个Python脚本测试一下：

import requests
import json

url = "http://localhost:8000/v1/chat/completions"
headers = {"Content-Type": "application/json"}

data = {
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "audio_url",
                    "audio_url": {
                        "url": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav"
                    },
                }
            ],
        }
    ]
}

try:
    response = requests.post(url, headers=headers, json=data, timeout=300)
    response.raise_for_status()
    content = response.json()['choices'][0]['message']['content']
    print("API返回结果:", content)
    
    # 如果需要解析结构化的输出
    from qwen_asr import parse_asr_output
    language, text = parse_asr_output(content)
    print(f"语言: {language}")
    print(f"文本: {text}")
    
except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")
except KeyError as e:
    print(f"解析响应失败: {e}")

运行这个脚本，应该能得到和直接调用一样的结果。API服务的优势是可以用任何支持HTTP的语言来调用，比如Java、Go、JavaScript等。

3.5 GPU显存优化技巧

如果你的GPU显存刚好16GB，或者想同时跑其他任务，这里有几个优化技巧：

调整批处理大小：

# 减少批处理大小，降低显存占用
model = Qwen3ASRModel.from_pretrained(
    model_path,
    dtype=torch.float16,  # 用float16代替bfloat16
    device_map="cuda:0",
    max_inference_batch_size=8,  # 默认是32，可以调小
    max_new_tokens=128,  # 减少生成的最大token数
)

启用CPU卸载（如果显存实在不够）：

model = Qwen3ASRModel.from_pretrained(
    model_path,
    dtype=torch.float16,
    device_map="auto",  # 自动分配设备
    offload_folder="offload",  # CPU卸载的临时文件夹
)

服务端优化：

# 调整vLLM参数
qwen-asr-serve Qwen/Qwen3-ASR-1.7B \
    --gpu-memory-utilization 0.7 \  # 降低GPU利用率
    --max-model-len 1024 \  # 减少最大序列长度
    --host 0.0.0.0 \
    --port 8000

监控显存使用：

# 实时查看GPU使用情况
watch -n 1 nvidia-smi

我实际测试中发现，1.7B版本在16GB显存上跑得还算顺畅，但处理长音频时显存占用会接近上限。如果经常处理20分钟以上的音频，建议用24GB或以上的显卡。

4. 常见问题与解决

部署过程中可能会遇到一些问题，这里整理了几个常见的：

问题1：CUDA版本不兼容

RuntimeError: The NVIDIA driver on your system is too old.

解决方法：升级NVIDIA驱动到最新版本，或者安装对应CUDA版本的PyTorch。

问题2：显存不足

torch.cuda.OutOfMemoryError: CUDA out of memory.

解决方法：尝试上面提到的优化技巧，或者换用Qwen3-ASR-0.6B版本。

问题3：模型下载失败

ConnectionError: Failed to establish a new connection

解决方法：设置代理或者使用国内镜像源，也可以手动从HuggingFace下载后放到缓存目录。

问题4：vLLM安装失败

ERROR: Could not build wheels for vLLM

解决方法：确保CUDA版本匹配，或者尝试安装预编译版本：

pip install vllm --pre --extra-index-url https://pypi.nvidia.com

问题5：服务启动后无法连接 检查防火墙设置：

# 查看8000端口是否监听
netstat -tlnp | grep 8000

# 临时关闭防火墙（测试用）
sudo ufw disable

5. 实际使用建议

部署好了，怎么用到实际项目里呢？我分享几个经验：

音频预处理很重要 模型对音频格式有要求，最好是16kHz、单声道、16位深的WAV文件。如果不是这个格式，需要先转换：

import librosa
import soundfile as sf

def preprocess_audio(input_path, output_path):
    # 加载音频
    audio, sr = librosa.load(input_path, sr=16000, mono=True)
    
    # 保存为WAV格式
    sf.write(output_path, audio, 16000, subtype='PCM_16')
    
    return output_path

批量处理策略 如果需要处理大量音频，建议用队列+批处理的方式：

from concurrent.futures import ThreadPoolExecutor
import queue

class ASRProcessor:
    def __init__(self, batch_size=4):
        self.batch_size = batch_size
        self.task_queue = queue.Queue()
        
    def add_task(self, audio_path):
        self.task_queue.put(audio_path)
        
    def process_batch(self, audio_paths):
        # 批量处理逻辑
        results = []
        for path in audio_paths:
            result = model.transcribe(audio=path)
            results.append(result)
        return results
    
    def start(self):
        with ThreadPoolExecutor(max_workers=2) as executor:
            while True:
                batch = []
                while len(batch) < self.batch_size and not self.task_queue.empty():
                    batch.append(self.task_queue.get())
                
                if batch:
                    future = executor.submit(self.process_batch, batch)
                    # 处理结果...

错误处理与重试 网络服务难免会有问题，加上重试机制：

import time
from tenacity import retry, stop_after_attempt, wait_exponential

@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
def transcribe_with_retry(audio_path):
    try:
        return model.transcribe(audio=audio_path)
    except Exception as e:
        print(f"识别失败: {e}")
        raise

性能监控 在生产环境里，最好加上监控：

# 使用prometheus监控
# 安装prometheus客户端
pip install prometheus-client

# 在代码中添加指标
from prometheus_client import Counter, Histogram

transcribe_requests = Counter('asr_requests_total', 'Total transcription requests')
transcribe_duration = Histogram('asr_duration_seconds', 'Transcription duration')

@transcribe_duration.time()
def transcribe_audio(audio_path):
    transcribe_requests.inc()
    return model.transcribe(audio=audio_path)

6. 总结

走完这一套流程，你应该已经成功部署了Qwen3-ASR-1.7B。整体来说，这个模型的部署难度中等，主要难点在环境配置和显存优化上。一旦跑起来，识别效果确实不错，特别是多语言和方言的支持，比之前用过的开源方案要好。

实际用下来，有几点感受比较深：一是文档还算详细，但有些细节需要自己摸索；二是显存要求确实不低，16GB算是刚够用；三是识别准确率在开源模型里算是第一梯队的，特别是对中文的支持很到位。

如果你刚开始接触语音识别，建议先从0.6B版本开始，对硬件要求低一些，部署也简单。等熟悉了再上1.7B版本。另外，官方提供的推理框架功能挺全的，支持流式识别、批量处理，还有强制对齐，这些高级功能可以慢慢探索。

最后提醒一下，部署完成后记得测试不同场景的音频，比如带背景音乐的、有口音的、长音频的，看看在实际应用中的表现。模型的效果虽然不错，但也不是万能的，有些特殊场景可能还需要针对性优化。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git