Qwen3-ASR-1.7B部署教程：Kubernetes Helm Chart部署方案初探

本文介绍了在星图GPU平台上自动化部署Qwen3-ASR-1.7B语音识别模型v2的Kubernetes Helm方案。该方案通过预置的Helm Chart实现一键部署，简化了生产环境的管理与扩展。该模型可高效应用于会议记录、音视频内容转写等离线语音识别场景。

无畏道人

742人浏览 · 2026-03-10 07:48:44

无畏道人 · 2026-03-10 07:48:44 发布

Qwen3-ASR-1.7B部署教程：Kubernetes Helm Chart部署方案初探

1. 为什么要在Kubernetes上部署语音识别模型？

如果你正在寻找一个能离线运行、支持多语言、识别精度高的语音转文字方案，Qwen3-ASR-1.7B可能已经进入了你的视线。这个模型确实不错——中文识别准确，英文、日语、韩语都能处理，还能自动检测语言，而且完全离线运行，数据安全有保障。

但问题来了：当你需要在团队内部、多个项目或者生产环境中使用这个模型时，单机部署就显得有些力不从心了。每次部署都要手动配置环境、管理端口、处理依赖，还要考虑如何扩展、如何监控、如何更新。更麻烦的是，如果多个团队都需要用，难道要给每个人都部署一套吗？

这就是为什么我们需要Kubernetes和Helm。简单来说，Kubernetes帮你管理容器化的应用，而Helm是Kubernetes的包管理器，就像apt或yum一样。用Helm部署Qwen3-ASR-1.7B，你可以：

一键部署：不用再记那些复杂的命令和配置
轻松扩展：需要更多实例？改个数字就行
统一管理：所有配置集中管理，不会出现“这台机器能跑，那台不行”的情况
持续更新：模型更新了？更新Chart版本就能升级

接下来，我会带你一步步用Helm在Kubernetes上部署Qwen3-ASR-1.7B。即使你之前没怎么用过Kubernetes，跟着做也能搞定。

2. 部署前的准备工作

2.1 环境要求检查

在开始之前，先确认你的环境满足以下要求：

Kubernetes集群要求：

Kubernetes版本：1.20或更高
至少1个可用节点（建议2个以上用于高可用）
节点需要有NVIDIA GPU（至少16GB显存）
已安装NVIDIA GPU Operator或nvidia-docker

Helm客户端要求：

Helm版本：3.0或更高
已配置好kubectl并连接到目标集群

存储要求：

需要约6GB的持久化存储用于模型文件
建议使用支持ReadWriteMany的存储类（如NFS、CephFS）

2.2 创建命名空间

为语音识别服务创建一个独立的命名空间是个好习惯，这样能更好地隔离资源：

# 创建命名空间
kubectl create namespace asr-production

# 或者使用配置文件
cat <<EOF | kubectl apply -f -
apiVersion: v1
kind: Namespace
metadata:
  name: asr-production
  labels:
    app: qwen-asr
    environment: production
EOF

2.3 准备模型文件（可选）

Qwen3-ASR-1.7B的镜像已经包含了模型文件，但如果你希望模型文件与容器分离（便于更新和管理），可以提前下载到持久化存储：

# 创建持久化卷声明
cat <<EOF | kubectl apply -f -
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: qwen-asr-model-pvc
  namespace: asr-production
spec:
  accessModes:
    - ReadWriteMany
  resources:
    requests:
      storage: 10Gi
  storageClassName: your-storage-class
EOF

3. Helm Chart部署详解

3.1 创建自定义Helm Chart

虽然你可以直接使用原始的Docker镜像，但用Helm Chart能更好地管理配置。我们先创建一个基本的Chart结构：

# 创建Chart目录结构
mkdir qwen-asr-helm
cd qwen-asr-helm

# 创建Chart.yaml
cat > Chart.yaml <<EOF
apiVersion: v2
name: qwen-asr
description: A Helm chart for deploying Qwen3-ASR-1.7B语音识别模型
type: application
version: 1.0.0
appVersion: "1.7b"
EOF

# 创建values.yaml（配置模板）
cat > values.yaml <<EOF
# Qwen3-ASR-1.7B Helm Chart配置

# 副本数配置
replicaCount: 1

# 镜像配置
image:
  repository: your-registry/ins-asr-1.7b-v1
  tag: latest
  pullPolicy: IfNotPresent

# 服务配置
service:
  type: ClusterIP
  webPort: 7860
  apiPort: 7861

# 资源限制
resources:
  requests:
    memory: "16Gi"
    cpu: "4"
    nvidia.com/gpu: 1
  limits:
    memory: "32Gi"
    cpu: "8"
    nvidia.com/gpu: 1

# 持久化存储配置
persistence:
  enabled: false
  storageClass: ""
  accessMode: ReadWriteOnce
  size: 10Gi

# 环境变量配置
env:
  - name: CUDA_VISIBLE_DEVICES
    value: "0"
  - name: MODEL_PATH
    value: "/app/models"
  - name: GRADIO_SERVER_NAME
    value: "0.0.0.0"

# 健康检查配置
livenessProbe:
  httpGet:
    path: /health
    port: 7860
  initialDelaySeconds: 60
  periodSeconds: 30

readinessProbe:
  httpGet:
    path: /health
    port: 7860
  initialDelaySeconds: 30
  periodSeconds: 10

# 自动扩缩容配置
autoscaling:
  enabled: false
  minReplicas: 1
  maxReplicas: 3
  targetCPUUtilizationPercentage: 70
  targetMemoryUtilizationPercentage: 80
EOF

3.2 编写部署模板

创建templates/deployment.yaml，这是Helm Chart的核心：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: {{ include "qwen-asr.fullname" . }}
  namespace: {{ .Release.Namespace }}
  labels:
    {{- include "qwen-asr.labels" . | nindent 4 }}
spec:
  replicas: {{ .Values.replicaCount }}
  selector:
    matchLabels:
      {{- include "qwen-asr.selectorLabels" . | nindent 6 }}
  template:
    metadata:
      labels:
        {{- include "qwen-asr.selectorLabels" . | nindent 8 }}
    spec:
      containers:
      - name: {{ .Chart.Name }}
        image: "{{ .Values.image.repository }}:{{ .Values.image.tag }}"
        imagePullPolicy: {{ .Values.image.pullPolicy }}
        command: ["bash", "/root/start_asr_1.7b.sh"]
        ports:
        - name: web
          containerPort: {{ .Values.service.webPort }}
          protocol: TCP
        - name: api
          containerPort: {{ .Values.service.apiPort }}
          protocol: TCP
        env:
        {{- range .Values.env }}
        - name: {{ .name }}
          value: {{ .value | quote }}
        {{- end }}
        resources:
          {{- toYaml .Values.resources | nindent 12 }}
        livenessProbe:
          {{- toYaml .Values.livenessProbe | nindent 12 }}
        readinessProbe:
          {{- toYaml .Values.readinessProbe | nindent 12 }}
        volumeMounts:
        {{- if .Values.persistence.enabled }}
        - name: model-storage
          mountPath: /app/models
        {{- end }}
      volumes:
      {{- if .Values.persistence.enabled }}
      - name: model-storage
        persistentVolumeClaim:
          claimName: {{ .Values.persistence.existingClaim | default (include "qwen-asr.fullname" .) }}
      {{- end }}
      nodeSelector:
        {{- if .Values.nodeSelector }}
        {{- toYaml .Values.nodeSelector | nindent 8 }}
        {{- end }}
      tolerations:
        {{- if .Values.tolerations }}
        {{- toYaml .Values.tolerations | nindent 8 }}
        {{- end }}

3.3 创建服务模板

创建templates/service.yaml，用于暴露服务：

apiVersion: v1
kind: Service
metadata:
  name: {{ include "qwen-asr.fullname" . }}
  namespace: {{ .Release.Namespace }}
  labels:
    {{- include "qwen-asr.labels" . | nindent 4 }}
spec:
  type: {{ .Values.service.type }}
  ports:
  - name: web
    port: {{ .Values.service.webPort }}
    targetPort: web
    protocol: TCP
  - name: api
    port: {{ .Values.service.apiPort }}
    targetPort: api
    protocol: TCP
  selector:
    {{- include "qwen-asr.selectorLabels" . | nindent 4 }}

3.4 添加辅助模板

创建templates/_helpers.tpl，包含一些辅助函数：

{{- define "qwen-asr.name" -}}
{{- default .Chart.Name .Values.nameOverride | trunc 63 | trimSuffix "-" }}
{{- end }}

{{- define "qwen-asr.fullname" -}}
{{- if .Values.fullnameOverride }}
{{- .Values.fullnameOverride | trunc 63 | trimSuffix "-" }}
{{- else }}
{{- $name := default .Chart.Name .Values.nameOverride }}
{{- if contains $name .Release.Name }}
{{- .Release.Name | trunc 63 | trimSuffix "-" }}
{{- else }}
{{- printf "%s-%s" .Release.Name $name | trunc 63 | trimSuffix "-" }}
{{- end }}
{{- end }}
{{- end }}

{{- define "qwen-asr.chart" -}}
{{- printf "%s-%s" .Chart.Name .Chart.Version | replace "+" "_" | trunc 63 | trimSuffix "-" }}
{{- end }}

{{- define "qwen-asr.labels" -}}
helm.sh/chart: {{ include "qwen-asr.chart" . }}
{{ include "qwen-asr.selectorLabels" . }}
{{- if .Chart.AppVersion }}
app.kubernetes.io/version: {{ .Chart.AppVersion | quote }}
{{- end }}
app.kubernetes.io/managed-by: {{ .Release.Service }}
{{- end }}

{{- define "qwen-asr.selectorLabels" -}}
app.kubernetes.io/name: {{ include "qwen-asr.name" . }}
app.kubernetes.io/instance: {{ .Release.Name }}
{{- end }}

4. 部署与验证

4.1 安装Helm Chart

现在我们可以用Helm来部署了：

# 进入Chart目录
cd qwen-asr-helm

# 安装Chart到指定命名空间
helm install qwen-asr . \
  --namespace asr-production \
  --set image.repository=your-registry/ins-asr-1.7b-v1 \
  --set replicaCount=2 \
  --set service.type=LoadBalancer

# 或者使用自定义的values文件
helm install qwen-asr . \
  -f custom-values.yaml \
  --namespace asr-production

4.2 验证部署状态

部署完成后，检查所有资源的状态：

# 查看Pod状态
kubectl get pods -n asr-production -l app.kubernetes.io/name=qwen-asr

# 查看服务状态
kubectl get svc -n asr-production -l app.kubernetes.io/name=qwen-asr

# 查看Pod日志（检查启动过程）
kubectl logs -n asr-production deployment/qwen-asr --tail=50

# 查看详细的事件信息
kubectl describe pod -n asr-production -l app.kubernetes.io/name=qwen-asr

正常启动后，你应该能看到类似这样的输出：

NAME                        READY   STATUS    RESTARTS   AGE
qwen-asr-7c8b5f6d8f-abcde   1/1     Running   0          2m
qwen-asr-7c8b5f6d8f-fghij   1/1     Running   0          2m

4.3 访问服务

根据你的服务类型，有不同的访问方式：

如果是LoadBalancer类型：

# 获取外部IP
kubectl get svc qwen-asr -n asr-production -o jsonpath='{.status.loadBalancer.ingress[0].ip}'

# 访问Web界面
# 浏览器打开：http://<EXTERNAL-IP>:7860

如果是NodePort类型：

# 获取NodePort端口
kubectl get svc qwen-asr -n asr-production -o jsonpath='{.spec.ports[?(@.name=="web")].nodePort}'

# 访问Web界面
# 浏览器打开：http://<NODE-IP>:<NODE-PORT>

如果是ClusterIP类型（集群内访问）：

# 创建端口转发
kubectl port-forward -n asr-production svc/qwen-asr 7860:7860

# 访问Web界面
# 浏览器打开：http://localhost:7860

4.4 功能测试

服务启动后，通过Web界面进行功能测试：

访问Web界面：打开http://<你的地址>:7860
上传测试音频：点击上传区域，选择一个WAV格式的音频文件
选择语言：在下拉框中选择"zh"（中文）或"auto"（自动检测）
开始识别：点击"开始识别"按钮
查看结果：等待1-3秒，查看右侧的识别结果

你也可以通过API进行测试：

# 测试API接口
curl -X POST "http://<服务地址>:7861/asr" \
  -H "Content-Type: multipart/form-data" \
  -F "audio=@test.wav" \
  -F "language=zh"

5. 生产环境配置建议

5.1 高可用配置

对于生产环境，建议配置高可用：

# values-production.yaml
replicaCount: 3

affinity:
  podAntiAffinity:
    preferredDuringSchedulingIgnoredDuringExecution:
    - weight: 100
      podAffinityTerm:
        labelSelector:
          matchExpressions:
          - key: app.kubernetes.io/name
            operator: In
            values:
            - qwen-asr
        topologyKey: kubernetes.io/hostname

resources:
  requests:
    memory: "24Gi"
    cpu: "6"
    nvidia.com/gpu: 1
  limits:
    memory: "32Gi"
    cpu: "8"
    nvidia.com/gpu: 1

5.2 自动扩缩容配置

如果流量波动较大，可以启用HPA（Horizontal Pod Autoscaler）：

# 在values.yaml中添加
autoscaling:
  enabled: true
  minReplicas: 2
  maxReplicas: 10
  targetCPUUtilizationPercentage: 70
  targetMemoryUtilizationPercentage: 80
  behavior:
    scaleDown:
      stabilizationWindowSeconds: 300
      policies:
      - type: Percent
        value: 50
        periodSeconds: 60

然后创建HPA模板templates/hpa.yaml：

{{- if .Values.autoscaling.enabled }}
apiVersion: autoscaling/v2
kind: HorizontalPodAutoscaler
metadata:
  name: {{ include "qwen-asr.fullname" . }}
  namespace: {{ .Release.Namespace }}
  labels:
    {{- include "qwen-asr.labels" . | nindent 4 }}
spec:
  scaleTargetRef:
    apiVersion: apps/v1
    kind: Deployment
    name: {{ include "qwen-asr.fullname" . }}
  minReplicas: {{ .Values.autoscaling.minReplicas }}
  maxReplicas: {{ .Values.autoscaling.maxReplicas }}
  metrics:
  - type: Resource
    resource:
      name: cpu
      target:
        type: Utilization
        averageUtilization: {{ .Values.autoscaling.targetCPUUtilizationPercentage }}
  - type: Resource
    resource:
      name: memory
      target:
        type: Utilization
        averageUtilization: {{ .Values.autoscaling.targetMemoryUtilizationPercentage }}
  behavior:
    {{- toYaml .Values.autoscaling.behavior | nindent 4 }}
{{- end }}

5.3 监控与日志

为生产环境添加监控和日志收集：

# 添加Prometheus监控注解
annotations:
  prometheus.io/scrape: "true"
  prometheus.io/port: "7860"
  prometheus.io/path: "/metrics"

# 添加自定义指标（如果使用自定义指标进行扩缩容）
customMetrics:
  - type: Pods
    pods:
      metric:
        name: asr_requests_per_second
      target:
        type: AverageValue
        averageValue: 10

5.4 网络策略

限制不必要的网络访问：

# values.yaml中添加网络策略配置
networkPolicy:
  enabled: true
  ingress:
    - from:
        - podSelector:
            matchLabels:
              app: your-frontend-app
      ports:
        - port: 7860
          protocol: TCP
        - port: 7861
          protocol: TCP

创建网络策略模板templates/networkpolicy.yaml：

{{- if .Values.networkPolicy.enabled }}
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  name: {{ include "qwen-asr.fullname" . }}
  namespace: {{ .Release.Namespace }}
spec:
  podSelector:
    matchLabels:
      {{- include "qwen-asr.selectorLabels" . | nindent 6 }}
  policyTypes:
    - Ingress
  ingress:
    {{- range .Values.networkPolicy.ingress }}
    - ports:
        {{- range .ports }}
        - port: {{ .port }}
          protocol: {{ .protocol }}
        {{- end }}
      from:
        {{- toYaml .from | nindent 6 }}
    {{- end }}
{{- end }}

6. 常见问题与解决方案

6.1 Pod启动失败

问题现象：Pod一直处于CrashLoopBackOff状态

可能原因及解决方案：

GPU资源不足

# 检查节点GPU资源
kubectl describe node <node-name> | grep -A 10 "Capacity"

# 解决方案：确保节点有足够GPU，或调整资源请求
# 修改values.yaml中的resources部分
resources:
  requests:
    nvidia.com/gpu: 1  # 改为0.5或根据实际情况调整

镜像拉取失败

# 查看Pod事件
kubectl describe pod <pod-name> -n asr-production

# 解决方案：检查镜像仓库权限，或使用公开镜像
image:
  repository: public-registry/ins-asr-1.7b-v1
  pullSecret: my-registry-secret  # 如果需要私有仓库

模型加载超时

# 增加初始化时间
livenessProbe:
  initialDelaySeconds: 120  # 从60增加到120秒
readinessProbe:
  initialDelaySeconds: 60   # 从30增加到60秒

6.2 性能优化建议

如果识别速度慢：

# 调整资源分配
resources:
  requests:
    cpu: "8"  # 增加CPU
    memory: "32Gi"  # 增加内存
  limits:
    cpu: "16"
    memory: "64Gi"

# 使用GPU显存优化
env:
  - name: PYTORCH_CUDA_ALLOC_CONF
    value: "max_split_size_mb:128"

如果并发处理能力不足：

# 增加副本数
replicaCount: 3

# 使用Ingress进行负载均衡
ingress:
  enabled: true
  className: nginx
  hosts:
    - host: asr.yourdomain.com
      paths:
        - path: /
          pathType: Prefix

6.3 存储配置问题

如果需要持久化存储：

persistence:
  enabled: true
  storageClass: "fast-ssd"  # 使用SSD存储类
  accessMode: ReadWriteMany  # 多节点读写
  size: 20Gi  # 增加存储空间
  
# 或者使用已有的PVC
persistence:
  enabled: true
  existingClaim: "existing-model-pvc"

7. 总结

通过Helm在Kubernetes上部署Qwen3-ASR-1.7B，你获得的不只是一个能用的语音识别服务，而是一个可扩展、可管理、高可用的生产级解决方案。让我们回顾一下关键点：

部署流程简化了：从复杂的手动部署变成了一行命令helm install，所有配置都在values.yaml里集中管理。

扩展变得容易了：需要更多实例？改一下replicaCount就行。流量大了？启用HPA自动扩缩容。

管理更方便了：统一的命名空间、标签选择器、服务发现，让运维工作标准化。

升级更安全了：Helm支持回滚，如果新版本有问题，helm rollback就能回到稳定状态。

资源利用更高效了：通过资源限制和请求，确保每个Pod都能获得足够的GPU和内存，又不会浪费资源。

当然，这套方案也不是万能的。如果你的团队规模很小，只有一两个人用，单机部署可能更简单。如果你的音频处理量非常大，可能需要考虑更复杂的架构，比如把音频预处理和后处理也容器化。

但无论如何，用Kubernetes和Helm来管理AI模型服务，是一个值得投入的方向。它让AI服务的部署和维护，变得像部署一个普通Web应用一样简单。

最后给个小建议：先从测试环境开始，用简单的配置把服务跑起来。然后根据实际使用情况，逐步添加监控、日志、网络策略这些高级功能。一步一个脚印，你会发现容器化部署其实没有想象中那么难。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git