Whisper 是 OpenAI 的一项语音处理项目,旨在实现语音的识别、翻译和生成任务。作为基于深度学习的语音识别模型,Whisper 具有高度的智能化和准确性,能够有效地转换语音输入为文本,并在多种语言之间进行翻译。通过不断的优化和更新,Whisper 致力于提供更加优质和高效的语音处理解决方案,以满足不同场景和需求下的语音交互应用。

  • 官网地址:https://openai.com/research/whisper

  • github 地址:https://github.com/openai/whisper?tab=readme-ov-file

Whisper 的优点

Whisper 借助丰富多样的数据集,这些数据集中的语音数据与互联网上的文本记录相匹配,并结合了一种名为“注意力机制”的技术。这项技术使得 Whisper 在处理语音时,能够更加有效地捕捉到语音中的关键信息。

这种综合运用数据和先进技术的方式,使得 Whisper 提高了其在各种环境下的健壮性和准确性,能够实现更为精确、智能的语音识别和翻译,为用户提供更加出色的语音处理体验。

多任务

Whisper 并不仅仅是预测给定音频的单词,虽然这是是语音识别的核心,但它还包含许多其他附加的功能组件,例如语言活动检测、说话人二值化和逆文本正态化。

采用 Transformer 序列到序列模型可以实现针对不同的语言处理任务。包括以下几种:

  • 语音识别

  • 语音翻译

  • 口语识别

  • 语音活动检测

这些任务的输出由模型预测的令牌序列表示,使得单个模型可以代替传统的语音处理管道中的多个组件,如下所示:

图片

应用

安装

openai-whisper

openai-whisper 与 python 3.8-3.11 和最新的 PyTorch 版本兼容。

使用 pip 命令安装:pip install -U openai-whisper

ffmpeg

openai-whisper 需要 ffmpeg 的环境,ffmpeg 是一个开源的跨平台音视频处理工具和框架,可以用来录制、转换和流式传输音视频内容 。

官网:https://ffmpeg.org/

MAC

安装:brew install ffmpeg

验证:ffmpeg -version 出现版本信息且无报错表示安装成功。

图片


Windows

安装:进入下载链接: https://www.gyan.dev/ffmpeg/builds/#release-builds ,选择版本下载安装:

图片


环境配置: 下载解压完成后,需要将 Ffmpeg 的执行文件坐在目录添加到系统的环境变量中。


图片

验证:在 cmd 中输入 ** ffmpeg -version ** 出现版本信息且无报错表示安装成功。

图片


命令行

# 将音频的内容转为文本,使用base模型
whisper demo1.mp3 --model base --task transcribe

命令行常用参数

参数

含义

默认

--model

要使用的 Whisper 模型名称

small

--task

转录(transcribe)或翻译(translate)

transcribe

--language

指定执行的语言

None

--temperature

指定输出内容的相似度

0

--output_dir

指定输出文件的保存路径

.

Python 代码

import whisper
# 初始化一个 base 模型
model = whisper.load_model("base")
# 传入音频文件,并得到音频输出的文本内容
res = model.transcribe("demo.mp3")
print(res["text"])

模型调用

安装 openai 第三方库,本篇教程使用  1.16.1   版本的  openai:pip install openai

def test_openai_whisper():
    # 初始化OpenAI对象
    client = OpenAI(base_url="xxx",api_key="xxx")
    # 打开一个音频文件
    audio_file1 = open("demo1.mp3", 'rb')
    audio_file2 = open("demo2.mp3", 'rb')
    # 选择模型,并且转录音频的内容
    res1 = client.audio.transcriptions.create(model="whisper-1", file=audio_file1)
    res2 = client.audio.transcriptions.create(model="whisper-1", file=audio_file2)
    # 翻译为英文
    res3 = client.audio.translations.create(model="whisper-1", file=audio_file2)
    print(f"audio1转录结果为:{res1.text}")
    print(f"audio2转录结果为:{res1.text}")
    print(f"audio2翻译结果为:{res1.text}")

推荐学习 

行业首个「知识图谱+测试开发」深度整合课程【人工智能测试开发训练营】,赠送智能体工具。


推荐阅读

DeepSeek实践指导手册、人工智能在软件测试中的应用、我们是如何测试人工智能的?

Deepseek52条喂饭指令

在本地部署属于自己的 DeepSeek 模型,搭建AI 应用平台

DeepSeek 大模型与智能体公开课,带你从零开始,掌握 AI 的核心技术,开启智能未来!

深度解析:如何通过DeepSeek优化软件测试开发工作,提升效率与准确度

DeepSeek、文心一言、Kimi、豆包、可灵……谁才是你的最佳AI助手?

从零到一:如何构建一个智能化测试平台?

DeepSeek-R1+ Ollama 本地部署全攻略

DeepSeek与Playwright结合:利用AI提升自动化测试脚本生成与覆盖率优化

DeepSeek大模型6大部署模式解析与探索测试开发技术赋能点

爱测智能化服务平台

测开人必看!0代码+AI驱动,测试效率飙升300% ——霍格沃兹测试开发学社‌重磅上新‌「爱测智能化服务平台」限时开放体验!

一码难求的Manus:智能体技术如何重构生产力?测试领域又有哪些新机遇?

开源工具

AppCrawler 开源版
https://github.com/seveniruby/AppCrawler

Hogwarts-Browser-Use 开源版
指导安装贴:hogwarts-browser-use - 开源项目 - 爱测-测试人社区


专业版 (7天免费试用)

自动遍历测试框架 AppCrawler 专业版
通用数据驱动测试框架 hogwarts-ddt 专业版
测试智能体框架 hogwarts-agent 专业版

学社提供的资源

教育官网:霍格沃兹测试开发学社
科技官网:测吧(北京)科技有限公司
火焰杯就业选拔赛:火焰杯就业选拔赛 - 霍格沃兹测试开发学社
火焰杯职业竞赛:火焰杯职业竞赛 - 霍格沃兹测试开发学社
学习路线图:霍格沃兹测试开发学社
公益社区论坛:爱测-测试人社区 - 软件测试开发爱好者的交流社区,交流范围涵盖软件测试、自动化测试、UI测试、接口测试、性能测试、安全测试、测试开发、测试平台、开源测试、测试教程、测试面试题、appium、selenium、jmeter、jenkins
公众号:霍格沃兹测试学院
视频号:霍格沃兹软件测试
ChatGPT体验地址:霍格沃兹测试开发学社

本套视频教程所有配套资料领取方式如下:

方式1:访问官网可下载:testingstudio.com
方式2:关注ceshiren.com社区
人工智能/AI/为什么测试工程师需要掌握AI_哔哩哔哩_bilibili
​adb命令:【霍格沃兹测试开发】adb命令零基础快速入门–深入理解掌握app自动化测试底层技术_哔哩哔哩_bilibili
Python语法:1.闭包和装饰器_哔哩哔哩_bilibili?
人工智能:人工智能在音频、视觉、多模态领域的应用_哔哩哔哩_bilibili
软件测试入门:【霍格沃兹测试开发】7小时速成!软件测试新手入门指南,轻松掌握测试技能!_哔哩哔哩_bilibili
测试开发:【霍格沃兹测试开发】面试BAT软件测试开发,你需要具备哪些技能?_哔哩哔哩_bilibili
面试题指导:【霍格沃兹测试开发】软件测试工程师如何拿到P5-P7高薪offer?_哔哩哔哩_bilibili
JMeter:JMeter从入门到精通全集 包含http/dubbo/Kafka压测、Grafana监控_哔哩哔哩_bilibili
Java测试框架:【软件测试】Java测试框架Junit5与Allure测试报告免费课_哔哩哔哩_bilibili
简历面试教程:软件测试工程师简历面试教程攻略–如何写出能进BAT大厂测开岗的优质简历?如何在面试中向HR要到更高薪资?如何拿到更高级别的offer?–持续更新!_哔哩哔哩_bilibili
Java:【软件测试教程】Java自动化测试平台开发入门篇之初识springboot_哔哩哔哩_bilibili?
java语言rest-assured:【霍格沃兹测试开发】java语言rest-assured框架进行接口测试实战_哔哩哔哩_bilibili
Java接口自动化:【软件测试】Java接口自动化测试之RestAssured_哔哩哔哩_bilibili
性能测试:【软件测试教程】高级性能测试-JMeter+InfluxDB+Grafana压测数据展示_哔哩哔哩_bilibili
Linux:Linux 中如何实时查看日志记录-【软件测试面试题】_哔哩哔哩_bilibili
接口测试:【软件测试教程】接口测试入门实战-基于企业微信api进行接口测试_哔哩哔哩_bilibili
APP自动化:【霍格沃兹测试开发】APP移动端自动化测试从入门到精通/Appium环境安装/元素定位与隐式等待(最全攻略)_哔哩哔哩_bilibili
MySQL:【软件测试教程】MySQL数据库基本增删改查与多表查询_哔哩哔哩_bilibili
postman:【软件测试】postman基础-发送post请求_哔哩哔哩_bilibili
性能实战:【软件测试教程】性能测试压测实战-JMeter+InfluxDB+Grafana压测数据展示_哔哩哔哩_bilibili
零基础入门:零基础快速入门软件测试的秘籍_哔哩哔哩_bilibili
Java-JUnit5:软件测试之Java测试框架JUnit5 L1_哔哩哔哩_bilibili
接口测试:【软件测试】App抓包实战练习-接口测试初级入门_哔哩哔哩_bilibili
接口mitmproxy工具:【软件测试教程】测开必备工具mitmproxy_哔哩哔哩_bilibili
pytest:1.pytest简介与安装-【软件测试实战教程】_哔哩哔哩_bilibili
app功能测试:14.app压力测试-【软件测试实战教程】_哔哩哔哩_bilibili
前端开发-vue:Vue生命周期_哔哩哔哩_bilibili
flask:Flask环境安装与配置_哔哩哔哩_bilibili
Appium:appium的基本介绍_哔哩哔哩_bilibili
精品课试听:1.接口测试价值与体系_哔哩哔哩_bilibili

Docker

Docker cp命令详解:在Docker容器和主机之间复制文件/文件夹

Docker pull 命令详解:从镜像仓库获取镜像

深入理解 Docker Run 命令:从入门到精通

Docker Exec 命令详解与实践指南

Docker Kill/Pause/Unpause命令详细使用指南

Docker Logs命令详解

Selenium

多任务一次搞定!selenium自动化复用浏览器技巧大揭秘

如何使用Selenium处理隐藏元素

软件测试/测试开发/全日制|selenium NoSuchDriverException问题解决

软件测试/人工智能|解决Selenium中的异常问题:“error sending request for url”

Python

使用Python爬取豆瓣电影影评:从数据收集到情感分析

如何使用 Python 实现十进制转二进制的程序

Python教程:如何获取颜色的RGB值

Python处理日期的利器—日期转换指南

Python字符串的编码与解码

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐