第2章第2节 语音采集

本章主要介绍AI语音交互的原理,包括语音交互的流程以及各流程节点所涉及的相关知识,如语音采集、语音识别、自然语言处理、语音合成等。

目录

第2章第2节 语音采集

2.2  语音采集

2.2.1  语音采集流程


2.2  语音采集

语音采集是以麦克风拾音为开端,经过模拟信号数字化,最后生成原始音频文件的整个过程。

2.2.1  语音采集流程

语音采集流程主要包括如下3个步骤:

(1)麦克风拾音

(2)模拟信号数字化

(3)原始音频文件生成

语音采集流程图如下:

 

图2-2  原始音频文件生成流程

1. 麦克风拾音

人输入语音后,产品通过麦克风拾音生成原始模拟信号。

什么是原始模拟信号?一般我们把在时间(或空间)和幅度上都是连续的信号称为模拟信号。在时间上“连续”是指在任何一个指定的时间范围里声音信号都有无穷多个幅值。在幅度上“连续”是指幅度的数值为实数。

2. 模拟信号数字化

将麦克风拾音获取的原始模拟信号转化为数字语音信号的过程,就是模拟信号数字化,其中主要包括以下3大步骤:

(1)采样

采样是指将时间轴上连续的信号每隔一定的时间间隔抽取出一个信号的幅度样本,把连续的模拟量用一个个离散的点表示出来,使其成为时间上离散的脉冲序列。

每秒钟采样的次数称为采样频率,用f表示。样本之间的时间间隔称为取样周期,用T表示,T=1/f。例如:CD的采样频率为44.1kHz,表示每秒钟采样44100次。

常用的采样频率有8kHz、11.025Hz、22.05kHz、15kHz、44.1kHz、48kHz等。

在对模拟音频进行采样时,取样频率越高,音质越有保证。若取样频率不够高,声音就会产生低频失真。那么怎样才能避免低频失真呢?著名的采样定理(Nyquist 定理)中给出有明确的答案:要想不产生低频失真,采样频率至少应为所要录制的音频的最高频率的2 倍。例如,电话话音的信号频率约为3.4 kHz ,采样频率就应该≥6.8 kHz ,考虑到信号的衰减等因素,一般取为8kHz。

(2)量化

采样的离散音频要转化为计算机能够表示的数据范围,这个过程称为量化。

量化的等级取决于量化精度,也就是用多少位二进制数来表示一个音频数据。量化精度越高,声音的保真度越高。比如若一台计算机能够接收8位二进制数据,则相当于能够接受256个十进制的数,即有256个电平数,用这些数来代表模拟信号的电平,可以有256种,但是实际上采样后的某一时刻信号的电平不一定和256个电平某一个相等,此时只能用最接近的数字代码表示取样信号电平。

常用的采样精度为8bit/s、12 bit/s、16bit/s、20bit/s、24bit/s等。

(3)编码

采样和量化后的信号还不是数字信号,需要把它转换成数字编码脉冲,这一过程称为编码。最简单的编码方式是二进制编码,即将已经量化的信号幅值用二进制数表示,计算机内采用的就是这种编码方式。

模拟音频经过采样、量化和编码后所形成的二进制序列就是数字音频信号。

3. 原始音频文件生成

我们可以将数字音频信号以文件的形式保存在计算机的存储设备中,这样的文件通常称之为数字音频文件,到此原始音频文件生成。原始录音文件是一个未压缩的纯波形文件。在计算机应用中,能够达到最高保真水平的就是PCM(Pulse Code Modulation)编码,常见的WAV文件中就有应用。WAV文件里存储的除了一个文件头以外,就是声音波形的一个个点了。

图2-3是一个波形的示例。

 

图2-3  声音波形图

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐