Qwen3-ASR-0.6B在Ubuntu20.04上的完整安装教程

本文介绍了如何在星图GPU平台上自动化部署Qwen/Qwen3-ASR-0.6B镜像，实现高效的语音识别功能。该镜像支持52种语言，可应用于智能语音助手、实时语音转文字等场景，帮助开发者快速构建本地语音识别应用，提升交互体验。

赵阿萌

282人浏览 · 2026-02-24 00:35:27

赵阿萌 · 2026-02-24 00:35:27 发布

Qwen3-ASR-0.6B在Ubuntu20.04上的完整安装教程

语音识别技术正在改变我们与设备交互的方式，而Qwen3-ASR-0.6B作为一个轻量级的语音识别模型，为开发者提供了在本地部署的强大选择。今天我将带你一步步在Ubuntu20.04系统上完成这个模型的安装和配置。

1. 环境准备与系统要求

在开始安装之前，我们先确认一下系统的基本要求。Qwen3-ASR-0.6B虽然相对轻量，但仍需要一些基础环境支持。

硬件要求：

GPU：至少8GB显存（推荐NVIDIA RTX 3080或更高）
内存：16GB以上
存储：至少10GB可用空间用于模型文件

软件要求：

Ubuntu 20.04 LTS
Python 3.8或更高版本
CUDA 11.7或更高版本
cuDNN 8.5或更高版本

首先更新系统包列表并安装基础依赖：

sudo apt update
sudo apt upgrade -y
sudo apt install -y python3-pip python3-venv git wget curl

2. 安装CUDA和cuDNN

如果你的系统还没有安装CUDA，可以按照以下步骤安装：

# 添加NVIDIA包仓库
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-keyring_1.0-1_all.deb
sudo dpkg -i cuda-keyring_1.0-1_all.deb
sudo apt update

# 安装CUDA
sudo apt install -y cuda-11-7

# 设置环境变量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

验证CUDA安装：

nvcc --version

3. 创建Python虚拟环境

为了避免依赖冲突，我们创建一个独立的Python环境：

python3 -m venv qwen3-asr-env
source qwen3-asr-env/bin/activate

4. 安装Qwen3-ASR包

现在开始安装核心的qwen-asr包。根据你的需求选择不同的安装方式：

基础安装（Transformers后端）：

pip install -U qwen-asr

如果你想使用vLLM后端以获得更快的推理速度：

pip install -U "qwen-asr[vllm]"

安装FlashAttention 2来减少GPU内存使用：

pip install -U flash-attn --no-build-isolation

5. 下载模型文件

Qwen3-ASR-0.6B的模型文件大约1.88GB，你可以通过以下方式下载：

使用ModelScope（国内用户推荐）：

pip install -U modelscope
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B

或者使用Hugging Face：

pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B

下载过程可能需要一些时间，取决于你的网络速度。

6. 验证安装

创建一个简单的测试脚本来验证安装是否成功：

# test_installation.py
import torch
from qwen_asr import Qwen3ASRModel

# 检查CUDA是否可用
print(f"CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name(0)}")
    print(f"CUDA version: {torch.version.cuda}")

# 尝试加载模型
try:
    model = Qwen3ASRModel.from_pretrained(
        "Qwen/Qwen3-ASR-0.6B",
        dtype=torch.bfloat16,
        device_map="cuda:0" if torch.cuda.is_available() else "auto",
        max_inference_batch_size=8,
        max_new_tokens=256,
    )
    print("模型加载成功！")
except Exception as e:
    print(f"模型加载失败: {e}")

运行测试脚本：

python test_installation.py

7. 常见问题解决

在安装过程中可能会遇到一些常见问题，这里提供解决方案：

问题1：CUDA版本不兼容

# 检查当前CUDA版本
nvcc --version

# 如果版本不匹配，重新安装指定版本的PyTorch
pip uninstall torch torchvision torchaudio -y
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117

问题2：内存不足

如果遇到内存不足的问题，可以尝试使用更小的批次大小：

model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-0.6B",
    dtype=torch.float16,  # 使用float16节省内存
    device_map="cuda:0",
    max_inference_batch_size=4,  # 减小批次大小
    max_new_tokens=128,
)

问题3：依赖冲突

如果遇到依赖包冲突，可以尝试重新创建干净的虚拟环境：

deactivate
rm -rf qwen3-asr-env
python3 -m venv qwen3-asr-env
source qwen3-asr-env/bin/activate
pip install -U qwen-asr

8. 基本使用示例

安装完成后，让我们尝试一个简单的语音识别示例：

# simple_example.py
import torch
from qwen_asr import Qwen3ASRModel

# 初始化模型
model = Qwen3ASRModel.from_pretrained(
    "Qwen/Qwen3-ASR-0.6B",
    dtype=torch.bfloat16,
    device_map="cuda:0",
    max_inference_batch_size=8,
    max_new_tokens=256,
)

# 转录音频文件
results = model.transcribe(
    audio="https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav",
    language=None,  # 自动检测语言
)

print(f"检测到的语言: {results[0].language}")
print(f"识别结果: {results[0].text}")

运行示例：

python simple_example.py

9. 环境变量配置

为了优化性能，建议设置以下环境变量：

# 添加到 ~/.bashrc
export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True
export CUDA_LAUNCH_BLOCKING=0
export TF_ENABLE_ONEDNN_OPTS=0

然后重新加载配置：

source ~/.bashrc

10. 总结

通过以上步骤，你应该已经成功在Ubuntu20.04上安装并配置了Qwen3-ASR-0.6B模型。这个轻量级的语音识别模型支持52种语言和方言，在本地部署环境下能够提供不错的识别效果。

实际使用中，你可能需要根据具体的硬件配置调整批次大小和内存使用参数。如果遇到性能问题，可以尝试使用vLLM后端或者启用FlashAttention来优化推理速度。记得在处理长音频时适当增加max_new_tokens参数，以确保完整的转录结果。

整体来说，Qwen3-ASR-0.6B的安装过程相对 straightforward，主要的时间消耗在模型下载和环境配置上。一旦安装完成，你就可以开始探索这个强大的语音识别工具在各种场景下的应用了。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git