本文还有配套的精品资源,点击获取 menu-r.4af5f7ec.gif

简介:高斯混合模型(GMM)是语音识别中广泛使用的统计建模方法,结合MATLAB强大的数值计算能力,可高效实现语音信号的建模与识别。本项目围绕基于GMM的语音识别系统展开,涵盖梅尔频率倒谱系数(MFCC)特征提取、GMM模型训练与识别流程,并介绍HMM与GMM结合的方法以提升识别性能。同时涉及说话人识别的应用扩展,帮助开发者掌握从信号处理到概率建模的完整技术链条。通过本项目实践,读者将深入理解语音识别核心机制,为后续研究与应用打下坚实基础。
基于MATLAB的语音识别GMM

1. 高斯混合模型(GMM)原理与语音识别应用

高斯混合模型的基本原理

高斯混合模型(GMM)是一种基于概率密度估计的生成式模型,通过加权多个多元高斯分布来逼近复杂数据的潜在分布。其核心表达式为:
p(\mathbf{x}|\theta) = \sum_{k=1}^{K} w_k \cdot \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)
$$
其中,$w_k$ 为混合权重,$\boldsymbol{\mu}_k$ 和 $\boldsymbol{\Sigma}_k$ 分别表示第 $k$ 个高斯成分的均值向量和协方差矩阵,参数集 $\theta = {w_k, \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k}$ 通常通过期望最大化(EM)算法迭代优化。

在语音识别中,GMM 被广泛用于对MFCC特征向量的概率分布建模,尤其适用于说话人识别任务中的声纹特征表征。由于语音信号具有高度非平稳性和个体差异性,单一高斯分布难以准确描述其统计特性,而 GMM 凭借其强大的分布拟合能力,能够有效捕捉不同说话人的声学特征模式。

接下来的章节将深入解析支撑GMM性能的关键前端技术——梅尔频率倒谱系数(MFCC)的提取流程。

2. 梅尔频率倒谱系数(MFCC)特征提取流程

在语音信号处理与自动语音识别系统中,特征提取是决定模型性能的关键环节。梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)因其对人类听觉感知特性的良好模拟而成为最广泛使用的声学特征之一。MFCC的设计充分考虑了人耳对不同频率声音的非线性敏感度,并通过一系列数学变换将原始语音信号转化为低维、高区分度的特征向量。这一过程不仅保留了语音的重要频谱信息,还有效抑制了冗余数据,为后续的模式识别任务(如说话人识别、语音命令分类等)提供了稳定且可解释的输入表示。

MFCC的提取流程是一个多阶段的信号处理链路,包含从模拟信号数字化到最终倒谱系数生成的完整路径。整个流程依次包括语音信号预处理、分帧加窗、傅里叶变换、梅尔滤波器组映射以及离散余弦变换等多个关键步骤。每一个步骤都具有明确的物理意义和工程目的,共同构成了一个符合心理声学原理的特征提取框架。以下将深入剖析该流程中的各个子模块,结合理论推导、实现细节与可视化手段,全面揭示MFCC为何能在众多语音特征中脱颖而出。

2.1 语音信号的预处理基础

语音信号作为一类典型的非平稳随机过程,在进行任何高级分析之前必须经过必要的预处理操作,以提升信噪比、增强高频成分并满足后续处理模块的假设条件。预处理主要包括两个核心环节:语音信号的数字化采样与预加重处理。这两个步骤虽处于流程前端,但其质量直接影响后续特征提取的准确性与鲁棒性。

2.1.1 语音信号数字化与采样定理

语音信号本质上是连续时间域上的模拟信号,表现为声压随时间变化的函数 $ x(t) $。为了在数字系统中对其进行处理,必须将其转换为离散序列 $ x[n] $,这一过程称为 模数转换 (Analog-to-Digital Conversion, ADC),其核心在于 采样 量化 。其中,采样决定了时间轴上的离散化精度,而量化则影响幅度分辨率。

根据香农-奈奎斯特采样定理(Shannon-Nyquist Sampling Theorem),若要无失真地重建一个带宽有限的连续信号,其采样频率 $ f_s $ 必须至少为信号最高频率 $ f_{\text{max}} $ 的两倍:

f_s \geq 2f_{\text{max}}

对于人类语音信号而言,主要能量集中在 300 Hz 至 3400 Hz 范围内,因此电话系统通常采用 8 kHz 的采样率;而在高质量语音识别任务中(如远场拾音或音乐语音混合场景),常使用 16 kHz 或更高采样率以保留更多细节信息。

下表列出了常见语音应用场景下的典型采样参数配置:

应用场景 采样率 $ f_s $ (kHz) 位深度(bits) 每秒样本数 主要用途
电话通信 8 16 8,000 基础语音通话
通用语音识别 16 16 16,000 ASR、命令词识别
高保真语音录制 44.1 / 48 24 44,100+ 音频编辑、音乐语音分离
远场麦克风阵列 16 ~ 48 24 16,000+ 智能音箱、会议系统
% 示例:读取语音文件并检查采样率
[x, fs] = audioread('example_speech.wav');
fprintf('采样率: %d Hz\n', fs);
fprintf('信号长度: %d 样本点\n', length(x));

上述代码调用 MATLAB 的 audioread 函数加载 .wav 文件,返回波形数据 x 和采样率 fs 。这是所有后续处理的基础输入源。通过打印 fs 可验证是否满足 Nyquist 条件——例如,若目标分析上限为 8 kHz,则采样率应不低于 16 kHz。

逐行解析:
- 第1行: audioread 自动解码 WAV/AAC/FLAC 等格式音频,输出归一化的双精度浮点数组 x ∈ [-1, 1] ,避免整型溢出问题。
- 第2–3行:输出基本信息用于调试,确保后续窗口大小、FFT 点数等参数基于正确采样率设定。

值得注意的是,实际应用中还需关注声道数(单声道 vs. 立体声)。多数语音识别系统仅处理单声道信号,因此多通道音频需先行合并或选择主通道:

if size(x, 2) > 1
    x = mean(x, 2); % 取左右声道平均值
end

此操作可消除声道间微小延迟带来的相位干扰,简化后续处理逻辑。

2.1.2 预加重技术的理论依据与实现目的

语音信号在发音过程中受到声门脉冲和口鼻辐射效应的影响,导致高频部分的能量显著衰减。具体表现为频谱斜率向下倾斜,即低频能量远高于高频。这种不均衡分布会降低高频共振峰(formants)的辨识度,进而影响特征表达能力。

为此引入 预加重 (Pre-emphasis)技术,其本质是一种一阶高通滤波器,用于补偿高频衰减,使频谱变得平坦。标准预加重公式如下:

y[n] = x[n] - \alpha x[n-1]

其中 $ \alpha $ 是预加重系数,通常取值范围为 [0.9, 0.97],常用默认值为 0.95。该滤波器在 Z 域的传递函数为:

H(z) = 1 - \alpha z^{-1}

其频率响应呈现随频率上升而增益提高的趋势,正好抵消原始语音的低通特性。

下面展示如何在 MATLAB 中实现预加重:

alpha = 0.95;
y = filter([1, -alpha], 1, x);

参数说明:
- alpha = 0.95 :经验性设置,平衡高频增强效果与噪声放大风险;
- filter([1, -alpha], 1, x) :实现差分方程 $ y[n] = x[n] - \alpha x[n-1] $,IIR 滤波结构简单高效。

逻辑分析:
- 使用 filter 函数而非手动循环,保证计算效率;
- 初始状态默认为零,适用于大多数语音片段;
- 输出 y 维持与输入 x 相同长度,便于后续分帧操作。

为直观理解预加重效果,可通过功率谱对比前后差异:

NFFT = 1024;
X_fft = abs(fft(y, NFFT)).^2 / NFFT;
freq = (0:NFFT-1)*(fs/NFFT);

figure;
plot(freq(1:NFFT/2), 10*log10(X_fft(1:NFFT/2)));
xlabel('频率 (Hz)');
ylabel('功率谱密度 (dB)');
title('预加重后单帧语音的功率谱');
grid on;

该图显示经预加重后的频谱趋于平缓,尤其在 2–4 kHz 区间提升明显,有助于后续梅尔滤波器更均匀地捕捉各频带能量。

graph TD
    A[原始语音信号 x[n]] --> B{是否需要预加重?}
    B -- 是 --> C[应用一阶高通滤波 y[n]=x[n]-αx[n-1]]
    B -- 否 --> D[直接进入分帧]
    C --> E[输出预加重信号 y[n]]
    D --> E
    E --> F[下一步: 分帧与加窗]

该流程图清晰展示了预加重在整个 MFCC 流程中的位置及其决策路径。尽管看似简单,但它对整体系统性能有不可忽视的影响——特别是在噪声环境下,合理预加重能显著提升信噪比(SNR),从而改善识别准确率。

2.2 分帧与加窗机制

由于语音信号具有短时平稳性(short-term stationarity),即在几十毫秒的时间尺度内其统计特性近似不变,因此可将其划分为多个重叠的小段进行独立分析。这一操作称为“分帧”,是短时频谱分析的基础。

2.2.1 短时分析假设下的分帧策略

语音信号的整体是非平稳的,但局部可视为平稳过程。研究表明,10–30 ms 时间窗内的语音段可近似满足平稳性假设。因此,分帧的目标是将长信号切分为一系列固定长度的短时段,每段称为“帧”(frame)。

设采样率为 $ f_s $,帧长 $ T_f $ 通常取 20–25 ms。例如,当 $ f_s = 16000 $ Hz 时,对应帧长为:

N = T_f \times f_s = 0.025 \times 16000 = 400 \text{ samples}

同时,相邻帧之间常设置重叠以减少边界效应,典型帧移(frame shift)为 10 ms,即每 160 个样本移动一次。

MATLAB 实现如下:

frame_length = round(0.025 * fs);  % 25ms 帧长
frame_shift  = round(0.010 * fs);  % 10ms 帧移

indices = 1:frame_length;
frames = [];

for i = 0:floor((length(y)-frame_length)/frame_shift)
    frame = y(indices + i*frame_shift);
    frames = [frames; frame'];
end

参数说明:
- frame_length :控制每一帧的样本数量;
- frame_shift :决定帧之间的偏移量;
- indices + i*frame_shift :生成当前帧的索引位置;
- frames :最终得到一个矩阵,每行为一帧。

更高效的实现方式是使用 MATLAB 内置的 buffer 函数(见第三章),但此处展示手动实现有助于理解底层机制。

逻辑分析:
- 循环终止条件确保最后一帧不越界;
- 使用列向量拼接形成二维矩阵,方便后续批量处理;
- 边缘未满帧部分被舍弃(也可补零处理)。

2.2.2 汉明窗在语音信号中的应用优势

直接对截断的帧信号进行 FFT 会产生频谱泄漏(spectral leakage),原因是矩形窗在时域突变导致频域旁瓣过高。为缓解此问题,需对每帧施加平滑窗函数,使得帧两端趋于零。

常用的窗函数包括汉明窗(Hamming)、海宁窗(Hanning)、布莱克曼窗等。其中 汉明窗 因其主瓣窄、旁瓣抑制良好而被广泛采用。其定义为:

w[n] = 0.54 - 0.46 \cos\left(\frac{2\pi n}{N-1}\right), \quad n = 0,1,\dots,N-1

MATLAB 实现如下:

win = hamming(frame_length);
windowed_frames = frames .* repmat(win', size(frames,1), 1);

参数说明:
- hamming(N) 自动生成长度为 N 的汉明窗向量;
- repmat 将窗函数复制到每一帧,实现逐元素乘积;
- 结果 windowed_frames 为加窗后的帧矩阵。

flowchart LR
    A[原始语音] --> B[分帧: 25ms长, 10ms移]
    B --> C[每帧加汉明窗]
    C --> D[输出加窗帧序列]

加窗后信号在时域更加平滑,有效降低了 FFT 中的频谱泄露,提高了频谱估计的准确性。下表比较了几种常见窗函数的性能指标:

窗函数 主瓣宽度(相对) 最大旁瓣衰减(dB) 应用场景
矩形窗 最窄 -13 高分辨率要求
汉明窗 中等 -41 通用语音处理(推荐)
海宁窗 较宽 -31 强干扰环境
布莱克曼窗 -58 极低旁瓣需求

综合来看,汉明窗在主瓣宽度与旁瓣抑制之间取得了良好平衡,适合大多数语音识别任务。

2.3 傅里叶变换与频谱分析

完成加窗后,每一帧语音信号即可视为一个短时平稳序列,接下来通过快速傅里叶变换(FFT)将其由时域转换至频域,以便进一步提取频谱特征。

2.3.1 快速傅里叶变换(FFT)在语音处理中的作用

FFT 是 DFT 的高效算法,将长度为 $ N $ 的时域信号 $ x[n] $ 映射为其频域表示 $ X[k] $:

X[k] = \sum_{n=0}^{N-1} x[n] e^{-j2\pi kn/N}, \quad k=0,1,\dots,N-1

在语音处理中,FFT 的主要作用是获取每帧信号的复数频谱,进而计算幅度谱与功率谱,作为梅尔滤波器组的输入。

MATLAB 实现如下:

NFFT = 512;  % 通常取大于帧长的2的幂次
spec = fft(windowed_frames', NFFT);

参数说明:
- NFFT ≥ frame_length ,不足部分自动补零;
- 转置 windowed_frames' 以适应 FFT 对列向量操作的习惯;
- 输出 spec 为复数矩阵,每列为一帧的频谱。

补零虽不增加真实频率分辨率,但可使频谱曲线更平滑,利于可视化与插值。

2.3.2 幅度谱与功率谱的物理意义解析

从 FFT 输出可提取两种基本频谱形式:

  • 幅度谱 :$ |X[k]| $
  • 功率谱 :$ P[k] = |X[k]|^2 $

功率谱更能反映能量分布,常用于后续滤波器组积分。

power_spectrum = abs(spec).^2 / NFFT;

除以 NFFT 是为了能量归一化,防止因 FFT 长度不同而导致能量偏差。

下图展示某一帧语音的功率谱:

plot((0:NFFT/2-1)*fs/NFFT, 10*log10(power_spectrum(1:NFFT/2,1)));
xlabel('频率 (Hz)'); ylabel('功率 (dB)');
title('单帧语音功率谱');

该图可观察到明显的谐波结构与共振峰位置,是语音音色的重要体现。

2.4 梅尔滤波器组与倒谱变换

2.4.1 梅尔刻度的心理声学基础

人耳对频率的感知是非线性的:在低频区分辨能力强,高频区则较差。梅尔刻度(Mel Scale)正是模拟这种感知特性的一种非线性频率映射:

\text{Mel}(f) = 2595 \log_{10}\left(1 + \frac{f}{700}\right)

基于此,设计一组三角形滤波器,均匀分布在梅尔尺度上,再反变换回线性频率域,构成 梅尔滤波器组

num_filters = 26;
low_freq = 0;
high_freq = fs/2;

mel_low = 2595*log10(1 + low_freq/700);
mel_high = 2595*log10(1 + high_freq/700);

mel_points = linspace(mel_low, mel_high, num_filters+2);
hz_points = 700*(10^(mel_points/2595) - 1);

bin = floor((NFFT+1) * hz_points / fs);

随后构建三角滤波器矩阵:

filter_banks = zeros(num_filters, NFFT/2);
for m = 1:num_filters
    for k = bin(m):bin(m+1)
        filter_banks(m,k) = (k - bin(m)) / (bin(m+1) - bin(m));
    end
    for k = bin(m+1):bin(m+2)
        filter_banks(m,k) = (bin(m+2) - k) / (bin(m+2) - bin(m+1));
    end
end

2.4.2 对数能量提取与离散余弦变换(DCT)的降维效果

将功率谱与滤波器组相乘,得到梅尔尺度下的能量:

mel_energy = filter_banks * power_spectrum(1:NFFT/2,:);
mel_energy = max(mel_energy, 1e-10);  % 防止log(0)
log_mel_energy = log(mel_energy);

最后应用 DCT 实现去相关与降维:

mfcc = dct(log_mel_energy)';

通常取前 12–13 个系数作为最终 MFCC 特征,其余反映细微信号变化,常被舍弃或用于动态特征(delta, delta-delta)计算。

步骤 输出维度 说明
分帧 (F, N) F 帧,每帧 N 样本
FFT (F, M) M 频点
梅尔滤波 (F, K) K=26 滤波器响应
DCT (F, D) D=12–13 维 MFCC

至此,完成完整的 MFCC 提取流程,输出可用于 GMM 训练的低维特征序列。

3. MATLAB中MFCC的实现:从信号输入到特征输出

语音识别系统的核心在于如何将原始音频信号转化为具有判别性的特征向量,以便后续模型能够有效建模。梅尔频率倒谱系数(MFCC)因其在模拟人耳听觉感知方面的优异表现,成为语音处理领域最广泛使用的声学特征之一。本章将深入探讨如何在 MATLAB 环境下完整实现 MFCC 特征提取流程,涵盖从语音文件读取、预处理、分帧加窗、频域变换,直至梅尔滤波器组设计与倒谱系数生成的全过程。通过代码级解析与可视化手段,展示每一个关键步骤的技术细节与工程实现方式。

3.1 MATLAB环境下的语音数据读取与可视化

语音信号作为时间序列数据,其数字化表示是所有后续处理的基础。在实际应用中,语音通常以 .wav 格式存储,包含采样率、量化精度和声道数等元信息。MATLAB 提供了高效的工具函数来加载并分析这些数据,为后续特征提取打下坚实基础。

3.1.1 使用 audioread 函数加载语音文件

在 MATLAB 中, audioread 是推荐用于读取音频文件的标准函数,支持多种格式(如 WAV、FLAC、MP3),返回两个主要输出:音频样本值向量 y 和采样率 fs

% 示例代码:读取语音文件
[y, fs] = audioread('speech_sample.wav');
  • 参数说明
  • y :一个长度为 N 的列向量(单声道)或 N×2 矩阵(立体声),表示每个时间点的振幅值。
  • fs :标量整数,单位为 Hz,表示每秒采集的样本数量。常见值为 16000 Hz 或 8000 Hz。

该函数自动处理字节序、位深度(如 16-bit PCM)和声道分离问题,极大简化了开发流程。对于双声道录音,可通过以下方式提取左声道:

if size(y, 2) == 2
    y = y(:, 1); % 取左声道
end

逻辑分析 :由于大多数语音识别任务基于单声道进行建模,因此需确保输入为单一通道信号。若不加以处理,多通道数据可能导致后续分帧操作维度错乱。

此外,可使用 audioinfo 函数获取更详细的元数据:

info = audioinfo('speech_sample.wav');
disp(info.SampleRate);
disp(info.Duration);
disp(info.BitDepth);

这有助于验证输入是否符合预期配置,避免因采样率不一致导致的特征失真。

3.1.2 时域波形绘制与基本参数检查

完成语音加载后,应立即对信号进行可视化,以确认其完整性与可辨识性。这是调试过程中不可或缺的一环。

% 绘制原始语音波形
t = (0:length(y)-1) / fs; % 时间轴计算
figure;
plot(t, y);
xlabel('时间 (秒)');
ylabel('归一化振幅');
title('原始语音信号时域波形');
grid on;
  • 参数解释
  • t 向量由样本索引除以采样率得到,实现时间轴的物理映射;
  • plot 函数绘制连续波形,适用于短句语音(<5 秒);
  • grid on 增强图形可读性。
表格:典型语音信号参数参考表
参数名称 推荐值 说明
采样率 16000 Hz 平衡带宽与计算成本,适合现代ASR系统
位深度 16 bit 足够动态范围,防止量化噪声
声道数 1(单声道) 多数识别任务无需立体声信息
音频格式 .wav(PCM编码) 兼容性强,无损压缩
信号幅值范围 [-1, 1] audioread 自动归一化

此阶段还可加入异常检测机制,例如判断是否存在静音段过长、削峰失真(clipping)等问题:

% 检测削峰
peak_ratio = sum(abs(y) > 0.95) / length(y);
if peak_ratio > 0.01
    warning('警告:信号可能存在削峰失真!');
end

扩展讨论 :良好的数据质量直接影响 MFCC 特征稳定性。实践中建议建立“语音质检”模块,在训练前自动过滤低信噪比或截幅严重的样本。

graph TD
    A[开始] --> B[调用 audioread 加载音频]
    B --> C{是否立体声?}
    C -->|是| D[提取单声道]
    C -->|否| E[继续处理]
    D --> F[生成时间轴 t=(0:N-1)/fs]
    E --> F
    F --> G[绘制波形图]
    G --> H[检查峰值比例与静音占比]
    H --> I[输出 clean signal y]

上述流程图清晰地展示了从文件读取到初步清洗的完整路径,体现了工程化语音处理的基本范式。

3.2 预加重与分帧操作的代码实现

语音信号在低频区域能量集中,高频部分则容易被衰减。为了均衡频谱并增强高频细节,通常引入预加重处理。随后,基于短时平稳假设,将长信号划分为重叠帧,便于局部特征提取。

3.2.1 一阶高通滤波器的设计与应用

预加重通过一阶 FIR 高通滤波器实现,常用公式如下:

y[n] = x[n] - \alpha x[n-1]

其中 $ \alpha \in [0.9, 0.97] $,典型取值为 0.95。

alpha = 0.95;
y_preemph = filter([1, -alpha], 1, y);
  • 函数说明
  • filter(b, a, x) 实现差分方程滤波;
  • [1, -alpha] 为分子系数(FIR);
  • 分母为 1 ,表示无反馈项。

逐行解读
- 第一行设定预加重系数 α;
- 第二行调用 filter 执行递推运算,等效于循环实现 $ y_i = x_i - \alpha x_{i-1} $;
- 输出 y_preemph 维度与原信号相同。

该操作提升了约 6 dB/倍频程的高频增益,有利于提升清音(如 /s/, /f/)的表示能力。对比前后频谱可明显观察到高频能量增强效果。

% 对比预加重前后频谱
N_fft = 512;
Y_orig = fft(y(1:N_fft));
Y_pre = fft(y_preemph(1:N_fft));
f = (0:N_fft/2)*fs/N_fft;

figure;
semilogy(f, abs(Y_orig(1:N_fft/2+1)), 'b', 'DisplayName', '原始');
hold on;
semilogy(f, abs(Y_pre(1:N_fft/2+1)), 'r--', 'DisplayName', '预加重');
xlabel('频率 (Hz)'); ylabel('幅度');
legend; title('预加重前后幅度谱对比'); grid on;

3.2.2 利用buffer函数完成有效分帧

语音被视为短时平稳过程,一般以 20–30 ms 为帧长进行切分。设帧长 $ N $ 和帧移 $ M $,常用组合为 $ N=400 $(25 ms @ 16kHz)、$ M=160 $(10 ms)。

MATLAB 中 buffer 函数专为此类操作设计:

frame_size = round(0.025 * fs); % 25ms
frame_shift = round(0.010 * fs); % 10ms

frames = buffer(y_preemph, frame_size, frame_shift, 'nodelay');
  • 参数详解
  • frame_size :每帧样本数;
  • frame_shift :相邻帧起始位置间隔;
  • 'nodelay' :禁止首帧填充零,避免引入虚假静音。

输出 frames 为 $ L \times K $ 矩阵,其中 $ K $ 为总帧数,$ L $ 为帧长。

注意 :若信号末尾不足一帧, buffer 默认补零。可通过截断或舍弃处理保持一致性:

% 舍弃最后一帧(若补零)
if length(y_preemph) < (size(frames,2)-1)*frame_shift + frame_size
    frames = frames(:, 1:end-1);
end
表格:不同采样率下的标准帧参数对照
采样率 (Hz) 帧长 (ms) 帧长 (样本) 帧移 (ms) 帧移 (样本)
8000 25 200 10 80
16000 25 400 10 160
44100 25 1102 10 441

该策略保证了跨平台实验的一致性。

flowchart LR
    Start --> PreEmphasis[应用预加重: y(n)=x(n)-αx(n-1)]
    PreEmphasis --> FrameSplitting[使用buffer分帧]
    FrameSpliting --> Overlap[帧间重叠10ms]
    Overlap --> Windowing[下一阶段加汉明窗]

流程图显示了预处理链路的衔接关系,强调了各步骤间的依赖结构。

3.3 加窗与FFT计算过程详解

直接对截断语音帧做 FFT 会引入频谱泄露,因矩形窗的旁瓣较高。为此,需对每帧施加平滑窗函数(如汉明窗),再进行傅里叶变换以获得稳定频谱表示。

3.3.1 汉明窗向量生成及其与帧信号相乘

汉明窗定义为:

w[n] = 0.54 - 0.46 \cos\left(\frac{2\pi n}{N-1}\right), \quad n=0,\dots,N-1

在 MATLAB 中可用内置函数快速生成:

win = hamming(frame_size);
frames_windowed = frames .* repmat(win, 1, size(frames,2));
  • repmat 解释 :将列向量 win 复制成与 frames 同尺寸矩阵,实现逐元素乘法;
  • .* 运算符执行向量化点乘,效率远高于 for 循环。

性能提示 :若内存受限,可改用 bsxfun(@times, win, frames) (适用于旧版 MATLAB)或直接循环处理。

加窗后每帧两端趋于零,显著降低频谱泄露。可通过比较加窗前后功率谱验证效果:

% 取第一帧比较
frame1_raw = frames(:,1);
frame1_win = frames_windowed(:,1);

P_raw = abs(fft(frame1_raw)).^2;
P_win = abs(fft(frame1_win)).^2;

figure;
plot(f, 10*log10(P_raw(1:N_fft/2+1)), 'b', 'DisplayName', '无窗');
hold on;
plot(f, 10*log10(P_win(1:N_fft/2+1)), 'r', 'DisplayName', '汉明窗');
xlabel('频率 (Hz)'); ylabel('功率谱密度 (dB)');
legend; title('加窗前后功率谱对比'); grid on;

结果显示,加窗虽略微降低主瓣分辨率,但大幅抑制了旁瓣干扰,整体信噪比改善明显。

3.3.2 每帧信号的FFT转换与幅值平方计算

对加窗后的每一帧执行 FFT,并计算功率谱:

N_fft = 512; % 通常取大于等于帧长的2的幂次
spec = fft(frames_windowed, N_fft, 1); % 沿列方向做FFT
power_spectrum = abs(spec).^2 / N_fft; % 归一化功率谱
  • 参数说明
  • N_fft :FFT 点数,补零至最近的 2 的幂可加速计算;
  • fft(..., [], 1) :指定沿第一维(行)进行变换;
  • / N_fft :能量归一化,避免随长度缩放。

输出 power_spectrum 为 $ N_{fft} \times K $ 矩阵,代表 K 帧的频谱能量分布。

深入分析 :功率谱反映了语音在不同频率上的能量分布,是后续梅尔滤波的基础。浊音(vowel)表现为谐波结构,而清音(fricative)呈现宽带噪声特性。

为进一步提升数值稳定性,常取对数:

log_power = log(power_spectrum + 1e-10); % 防止log(0)

添加极小常数防止对零取对数溢出。

graph BT
    A[加窗后帧信号] --> B[执行N点FFT]
    B --> C[计算幅值平方得功率谱]
    C --> D[取自然对数]
    D --> E[送入梅尔滤波器组]

该流程构成频域分析的核心骨架,为下一步非线性尺度变换提供输入。

3.4 梅尔滤波bank构建与对数能量提取

人类听觉系统对频率的感知是非线性的——在低频区敏感,高频区迟钝。梅尔刻度正是模拟这一心理声学特性,通过三角带通滤波器组将线性频谱映射到梅尔域。

3.4.1 设计三角形梅尔滤波器组的频率响应

首先将最高频率(通常取 $ f_s/2 $)转换为梅尔刻度:

\text{mel}(f) = 2595 \log_{10}(1 + f/700)

然后在梅尔域上均匀划分滤波器中心频率,再逆变换回线性域。

num_filters = 26; % 常用20~40之间
low_freq = 0;
high_freq = fs / 2;

% 转换为梅尔
mel_low = 2595 * log10(1 + low_freq / 700);
mel_high = 2595 * log10(1 + high_freq / 700);

% 均匀分布中心点
mel_points = linspace(mel_low, mel_high, num_filters + 2);

% 转回Hz
hz_points = 700 * (10^(mel_points / 2595) - 1);

% 计算每个滤波器的边界索引
bin = floor((N_fft + 1) * hz_points / fs);

% 构建滤波器组
filter_bank = zeros(num_filters, N_fft);
for m = 1:num_filters
    for k = bin(m):bin(m+1)
        filter_bank(m,k) = (k - bin(m)) / (bin(m+1) - bin(m));
    end
    for k = bin(m+1):bin(m+2)
        filter_bank(m,k) = (bin(m+2) - k) / (bin(m+2) - bin(m+1));
    end
end

逐行解析
- 定义滤波器数量及频率范围;
- 利用梅尔公式双向转换;
- linspace 在梅尔空间等距取点;
- floor 获取对应 FFT 频率索引;
- 内层循环构造三角形权重。

最终 filter_bank 为 $ F \times N_{fft} $ 矩阵,每行代表一个滤波器的频率响应。

表格:梅尔滤波器组关键参数示例(fs=16kHz)
滤波器编号 中心频率 (Hz) 左边界 (Hz) 右边界 (Hz) 梅尔值
1 133 0 266 223
10 1250 1000 1500 1420
20 3500 3000 4000 2450
26 6800 6000 8000 2850

可视化滤波器组形状:

figure;
plot((0:N_fft/2)*fs/N_fft, filter_bank(:,1:N_fft/2+1)');
xlabel('频率 (Hz)'); ylabel('权重'); title('梅尔滤波器组响应');
grid on;

可见低频区滤波器密集,高频稀疏,符合人耳感知规律。

3.4.2 将功率谱映射至梅尔尺度并取对数

利用滤波器组对每帧功率谱进行加权求和:

mel_energy = filter_bank * power_spectrum; % 矩阵乘法
mel_energy = max(mel_energy, 1e-10); % 防止零值
log_mel_energy = log(mel_energy); % 对数压缩
  • * 实现批量投影,无需循环;
  • max(..., eps) 避免除零或对零取对数;
  • 对数操作模拟听觉响度感知的对数性质。

此时已获得 Log-Mel Energy ,即 MFCC 的前身。若仅需此类特征(如某些轻量模型),可在此停止。

进一步优化 :可采用 DCT(离散余弦变换)去除系数间相关性,提取倒谱:

num_ceps = 12; % 保留前12个倒谱系数
dct_matrix = dctmtx(num_filters);
mfcc = dct_matrix(1:num_ceps, :) * log_mel_energy;

至此,完整的 MFCC 特征矩阵 mfcc (12×K)生成完毕,可用于 GMM 训练或其他分类任务。

graph TD
    A[功率谱 P(f)] --> B[乘以梅尔滤波器组]
    B --> C[得到梅尔能量]
    C --> D[取对数]
    D --> E[DCT降维]
    E --> F[输出MFCC系数]

整个流程体现了从物理信号到感知特征的转化逻辑,构成了现代语音识别系统的基石。

4. 使用MATLAB gmmfit 函数进行GMM模型训练

高斯混合模型(Gaussian Mixture Model, GMM)作为语音识别系统中经典的概率建模工具,其核心优势在于能够以多模态分布逼近任意复杂的特征空间密度。在现代语音处理系统中,尽管深度神经网络逐渐占据主导地位,但GMM因其数学形式清晰、可解释性强、训练稳定等优点,在小样本场景和嵌入式系统中仍具有不可替代的价值。尤其在说话人识别、关键词检测等任务中,GMM结合梅尔频率倒谱系数(MFCC)的框架依然是工业界广泛采用的基础架构之一。

本章聚焦于如何在MATLAB环境中利用内置函数 gmmfit 实现GMM模型的参数学习与优化,并深入探讨其背后的统计原理、算法流程以及工程实践中的关键细节。我们将从GMM的数学基础出发,逐步过渡到EM算法的核心机制,最终完成基于真实MFCC特征的单说话人与多类别GMM建模,并讨论模型持久化策略,为后续识别系统的集成打下坚实基础。

4.1 GMM数学建模基础

高斯混合模型是一种生成式概率模型,用于描述由多个子群体组成的复杂数据分布。它假设观测数据来自一个隐变量控制下的若干个高斯成分的加权组合。这种结构特别适合语音信号中不同音素或发音风格所导致的多峰性特征分布。

4.1.1 多元高斯分布的概率密度函数表达

在语音识别中,每帧MFCC特征通常构成一个 $ D $ 维向量 $ \mathbf{x} \in \mathbb{R}^D $(常见维度为12~39维)。对于单个高斯成分,其概率密度函数定义如下:

\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{D/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)

其中:
- $ \boldsymbol{\mu} \in \mathbb{R}^D $ 是均值向量,表示该高斯成分的中心位置;
- $ \boldsymbol{\Sigma} \in \mathbb{R}^{D \times D} $ 是协方差矩阵,描述各维度之间的相关性和方差;
- $ |\boldsymbol{\Sigma}| $ 表示协方差矩阵的行列式;
- $ \boldsymbol{\Sigma}^{-1} $ 是其逆矩阵。

在实际应用中,为了降低计算复杂度,常采用对角协方差矩阵(即非对角元素为0),这意味着各MFCC维之间被视为独立。这虽然牺牲了一定的建模精度,但在大多数语音任务中表现良好且显著提升效率。

示例代码:多元高斯密度计算实现
function px = mvnpdf_diag(x, mu, sigma)
% 计算对角协方差下的多元高斯概率密度
% 输入:
%   x: [N x D] 数据矩阵,N个样本,D维
%   mu: [1 x D] 均值向量
%   sigma: [1 x D] 对角标准差向量
% 输出:
%   px: [N x 1] 每个样本的概率密度值

    D = length(mu);
    diff = x - repmat(mu, size(x,1), 1);  % 中心化
    inv_sigma_sq = 1 ./ (sigma .^ 2);
    exponent = sum(diff.^2 .* inv_sigma_sq, 2);  % 马氏距离平方
    norm_const = (2*pi)^(-D/2) * prod(sigma)^(-1);
    px = norm_const * exp(-0.5 * exponent);
end

逻辑分析与参数说明:
- 第5行:输入为批量数据 x ,避免逐点循环,提高效率。
- 第7行:通过 repmat 将均值扩展成与数据同形,便于向量化运算。
- 第9行:利用对角协方差特性,将二次型简化为逐元素平方乘以逆方差之和。
- 第11行:归一化常数包含维度因子和协方差行列式的倒数(对角时为标准差乘积)。
- 此函数可用于手动验证 gmmfit 输出成分的有效性。

4.1.2 混合权重、均值与协方差矩阵的联合估计

GMM的整体概率密度是 $ K $ 个高斯成分的加权和:

p(\mathbf{x}) = \sum_{k=1}^{K} w_k \cdot \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k)

其中:
- $ w_k $ 为第 $ k $ 个成分的混合权重,满足 $ w_k \geq 0 $ 且 $ \sum_{k=1}^K w_k = 1 $;
- $ \boldsymbol{\mu}_k $ 和 $ \boldsymbol{\Sigma}_k $ 分别为第 $ k $ 个高斯的均值与协方差矩阵;
- $ K $ 为预设的成分数量,是超参数。

该模型的目标是通过最大似然估计(Maximum Likelihood Estimation, MLE)求解所有未知参数 $ \theta = {w_k, \boldsymbol{\mu} k, \boldsymbol{\Sigma}_k} {k=1}^K $,使得观测数据集 $ \mathcal{X} = {\mathbf{x}_1, \dots, \mathbf{x}_N} $ 的对数似然最大化:

\mathcal{L}(\theta) = \sum_{i=1}^N \log \left( \sum_{k=1}^K w_k \cdot \mathcal{N}(\mathbf{x}_i | \boldsymbol{\mu}_k, \boldsymbol{\Sigma}_k) \right)

由于存在隐变量(每个样本属于哪个成分未知),直接求导无法闭式求解。因此必须引入期望最大化(EM)算法进行迭代优化。

参数类型 数学符号 维度 说明
混合权重 $ w_k $ 标量 控制各成分贡献比例
均值向量 $ \boldsymbol{\mu}_k $ $ D \times 1 $ 成分中心位置
协方差矩阵 $ \boldsymbol{\Sigma}_k $ $ D \times D $ 特征分布的离散程度与相关性
成分数 $ K $ 整数 决定模型复杂度

⚠️ 注意:过大的 $ K $ 容易导致过拟合,尤其是在小样本条件下;而过小则可能欠拟合。一般建议通过交叉验证选择最优 $ K $。

4.2 EM算法在GMM参数学习中的核心地位

EM算法是GMM参数学习的核心引擎,能够在含有隐变量的情况下实现局部最优的最大似然估计。整个过程分为两个交替执行的步骤:期望步(E-step)和最大化步(M-step),直至收敛。

4.2.1 期望步(E-step)与最大化步(M-step)迭代流程

设第 $ t $ 次迭代时参数为 $ \theta^{(t)} $,则EM算法流程如下:

E-step:计算后验归属概率(责任度)

对每个样本 $ \mathbf{x}_i $ 和每个成分 $ k $,计算其属于该成分的后验概率:

\gamma_{ik}^{(t)} = \frac{w_k^{(t)} \cdot \mathcal{N}(\mathbf{x} i | \boldsymbol{\mu}_k^{(t)}, \boldsymbol{\Sigma}_k^{(t)})}{\sum {j=1}^K w_j^{(t)} \cdot \mathcal{N}(\mathbf{x}_i | \boldsymbol{\mu}_j^{(t)}, \boldsymbol{\Sigma}_j^{(t)})}

$ \gamma_{ik} $ 被称为“责任”(responsibility),表示第 $ i $ 个样本由第 $ k $ 个成分生成的可能性。

M-step:更新参数以最大化期望似然

根据当前的责任度重新估计参数:

  • 混合权重更新
    $$
    w_k^{(t+1)} = \frac{1}{N} \sum_{i=1}^N \gamma_{ik}^{(t)}
    $$

  • 均值更新
    $$
    \boldsymbol{\mu} k^{(t+1)} = \frac{\sum {i=1}^N \gamma_{ik}^{(t)} \mathbf{x} i}{\sum {i=1}^N \gamma_{ik}^{(t)}}
    $$

  • 协方差更新(对角情形)
    $$
    [\boldsymbol{\Sigma} k^{(t+1)}] {dd} = \frac{\sum_{i=1}^N \gamma_{ik}^{(t)} (x_{id} - \mu_{kd}^{(t+1)})^2}{\sum_{i=1}^N \gamma_{ik}^{(t)}}
    $$

上述过程不断迭代,直到对数似然变化小于阈值或达到最大迭代次数。

Mermaid 流程图:EM算法迭代流程
graph TD
    A[初始化参数 θ^(0)] --> B[E-step: 计算 γ_ik]
    B --> C[M-step: 更新 w_k, μ_k, Σ_k]
    C --> D{收敛?}
    D -- 否 --> B
    D -- 是 --> E[输出最终参数 θ*]

该图清晰展示了EM算法的闭环迭代本质:每一次迭代都基于当前参数推断隐变量(E-step),再基于软分配结果优化模型参数(M-step),逐步逼近局部最优解。

4.2.2 收敛判据设置与初始参数敏感性分析

尽管EM算法保证对数似然单调递增,但它只能收敛到局部极值,结果高度依赖于初始参数的选择。常见的初始化策略包括:

  • K-means聚类初始化 :先对数据运行K-means,用聚类中心作为初始均值,类内方差作为协方差,均匀权重或按类大小设置混合权重。
  • 随机采样初始化 :从数据集中随机选取 $ K $ 个点作为初始均值,协方差设为全局方差。
收敛判据设计

通常采用以下两种方式判断是否停止迭代:

  1. 对数似然增量阈值法
    $$
    |\mathcal{L}^{(t+1)} - \mathcal{L}^{(t)}| < \epsilon
    $$
    典型取值 $ \epsilon = 1e^{-6} $

  2. 最大迭代次数限制
    设定上限如 maxIter = 100 ,防止无限循环。

MATLAB代码示例:EM算法简易实现片段
% 初始化(假设已获得初始参数)
converged = false;
prev_loglik = -inf;
iter = 0;

while ~converged && iter < maxIter
    iter = iter + 1;
    % E-step: 计算责任度
    gamma = zeros(N, K);
    for k = 1:K
        gamma(:,k) = w(k) * mvnpdf_diag(X, mu(k,:), sigma(k,:));
    end
    gamma = gamma ./ max(sum(gamma,2), eps);  % 归一化
    % M-step: 更新参数
    Nk = sum(gamma, 1);  % 每个成分的“有效样本数”
    w = Nk / N;
    for k = 1:K
        mu(k,:) = (gamma(:,k)' * X) / Nk(k);
        diff = X - repmat(mu(k,:), N, 1);
        sigma(k,:) = sqrt(sum((diff.^2) .* gamma(:,k), 1) / Nk(k));
    end
    % 计算当前对数似然
    loglik = sum(log(sum(gamma .* repmat(w, N, 1), 2) + eps));
    if abs(loglik - prev_loglik) < 1e-6
        converged = true;
    end
    prev_loglik = loglik;
end

逐行解读与扩展说明:
- 第6–10行:E-step中调用自定义的对角高斯密度函数,批量计算每个成分的贡献。
- 第11行:防止除零错误,使用 max(..., eps) 确保数值稳定性。
- 第15行: Nk 表示每个成分承担的“软样本数”,反映其活跃程度。
- 第18–21行:均值更新相当于加权平均,权重为责任度。
- 第22–23行:协方差更新仅考虑对角项,符合语音处理常用假设。
- 第26行:对数似然计算需注意避免 log(0) ,加入 eps 微小扰动。

此实现可用于理解 gmmfit 内部机制,但在生产环境中推荐使用MATLAB优化后的内置函数。

4.3 基于 gmmfit 的单说话人模型训练实践

MATLAB提供了 gmdistribution.fit 函数(旧版本称 gmmfit )来高效训练GMM模型。我们将在本节演示如何准备MFCC特征并调用该函数完成单说话人建模。

4.3.1 训练样本MFCC特征矩阵准备

假设已完成第三章中的MFCC提取流程,得到一个 $ T \times D $ 的特征矩阵 mfcc_features ,其中每一行是一帧的MFCC向量。

% 加载预提取的MFCC特征(示例)
load('speaker1_mfcc.mat');  % 变量名 mfcc_features, size: [T x 13]

% 数据标准化(零均值单位方差)
mu_train = mean(mfcc_features, 1);
sigma_train = std(mfcc_features, 0, 1);
mfcc_norm = zscore(mfcc_features);  % 或手动:(mfcc_features - mu_train) ./ sigma_train

% 设置GMM参数
numComponents = 8;           % 成分数
sharedCov = false;           % 是否共享协方差矩阵
diagonalCov = true;          % 使用对角协方差
regularization = 1e-6;       % 正则化防止奇异

参数说明:
- zscore 提升训练稳定性,尤其当各维量纲不一时;
- numComponents=8 是语音识别中常用起点;
- diagonalCov=true 减少参数量,避免过拟合;
- regularization 添加小量到协方差对角线上,确保正定性。

4.3.2 调用 gmmfit 进行成分数选择与拟合优化

% 创建GMM模型对象
try
    gmm_model = gmdistribution.fit(mfcc_norm, numComponents, ...
        'RegularizationValue', regularization, ...
        'CovarianceType', 'diagonal', ...
        'SharedCovariance', sharedCov, ...
        'MaxIterations', 100, ...
        'Display', 'on');
catch ME
    error('GMM拟合失败: %s', ME.message);
end

% 显示模型信息
fprintf('成功训练GMM模型\n');
fprintf('成分数量: %d\n', gmm_model.NumComponents);
fprintf('特征维度: %d\n', gmm_model.Dim);

逻辑分析:
- 'CovarianceType','diagonal' 强制使用对角协方差,适用于高维稀疏数据;
- 'SharedCovariance',false 表示每个成分有独立协方差;
- 'MaxIterations' 控制最长迭代轮次;
- 'Display','on' 可观察每次迭代的对数似然变化。

模型评估:BIC准则选择最优成分数

为避免主观设定 $ K $,可遍历多个值并比较贝叶斯信息准则(BIC):

K_range = 4:2:16;
bic_scores = zeros(size(K_range));

for i = 1:length(K_range)
    K = K_range(i);
    gmm_temp = gmdistribution.fit(mfcc_norm, K, ...
        'CovarianceType', 'diagonal', ...
        'RegularizationValue', 1e-6, ...
        'MaxIterations', 100);
    bic_scores(i) = gmm_temp.BIC;
end

% 可视化选择
figure;
plot(K_range, bic_scores, '-o');
xlabel('GMM成分数 K');
ylabel('BIC Score');
title('BIC随成分数变化曲线');
[min_bic, opt_idx] = min(bic_scores);
opt_K = K_range(opt_idx);
fprintf('推荐最优成分数: %d\n', opt_K);

BIC在惩罚模型复杂度的同时衡量拟合优度,选择最小值对应的 $ K $ 更具泛化能力。

4.4 多类别GMM构建与模型存储策略

在实际语音识别系统中,需为每个类别(如每个说话人或每个词)建立独立的GMM模型。

4.4.1 为不同语音类别建立独立GMM模型

speakers = {'spk1', 'spk2', 'spk3'};
gmm_library = struct();

for i = 1:length(speakers)
    load([speakers{i}, '_mfcc.mat']);  % 加载对应MFCC
    mfcc_norm = zscore(mfcc_features);
    gmm_library.(speakers{i}) = gmdistribution.fit(mfcc_norm, 8, ...
        'CovarianceType', 'diagonal', ...
        'RegularizationValue', 1e-6);
end

save('gmm_model_library.mat', 'gmm_library');

每个模型独立训练,形成“模型库”,供测试阶段调用。

4.4.2 利用MAT文件保存训练后模型参数以供识别调用

% 保存完整模型(含分布参数)
save('gmm_speaker1.mat', 'gmm_model');

% 或导出关键参数用于轻量化部署
params_export = struct(...
    'Weights', gmm_model.Weights, ...
    'Mu', gmm_model.mu, ...
    'Sigma', gmm_model.Sigma, ...
    'NumComponents', gmm_model.NumComponents, ...
    'Dim', gmm_model.Dim, ...
    'NormalizationMean', mu_train, ...
    'NormalizationStd', sigma_train);

save('gmm_params_speaker1.mat', 'params_export');

优势:
- .mat 文件支持跨平台加载;
- 可分离训练与推理环境;
- 便于嵌入到实时系统中。

表格:GMM模型持久化格式对比
存储方式 是否保留分布对象 是否可直接预测 体积大小 适用场景
save('model.mat', 'gmm_model') 是(用 posterior 较大 研发调试
导出结构体参数 需重构建 嵌入式部署
JSON序列化参数 需解析重建 最小 Web服务接口

通过合理选择存储策略,可在灵活性与资源消耗之间取得平衡,支撑从原型开发到产品落地的全流程需求。

5. GMM在语音识别中的分类策略与系统集成

5.1 最大后验概率(MAP)决策准则的理论推导

在基于高斯混合模型(GMM)的语音识别系统中,分类决策依赖于统计判别理论。最常用的决策规则是 最大后验概率 (Maximum A Posteriori, MAP)准则。该准则选择使后验概率 $ P(C_k | \mathbf{x}) $ 最大的类别 $ C_k $,其中 $ \mathbf{x} $ 是输入的MFCC特征向量。

根据贝叶斯定理:

P(C_k | \mathbf{x}) = \frac{P(\mathbf{x} | C_k) P(C_k)}{P(\mathbf{x})}

由于分母 $ P(\mathbf{x}) $ 对所有类别相同,只需比较分子部分:

\hat{C} = \arg\max_{k} P(\mathbf{x} | C_k) P(C_k)

其中:
- $ P(\mathbf{x} | C_k) $:类条件概率密度,由第 $ k $ 个说话人或语音类别的GMM建模;
- $ P(C_k) $:先验概率,通常假设各类等概率(即 $ P(C_k) = 1/K $),也可根据训练样本数量进行估计;
- $ \hat{C} $:判定的类别标签。

对数域下转换为更稳定的计算形式:

\log P(C_k | \mathbf{x}) \propto \log P(\mathbf{x} | C_k) + \log P(C_k)

因此,最终决策函数为:

\hat{C} = \arg\max_{k} \left[ \log P(\mathbf{x} | C_k) + \log P(C_k) \right]

在实际MATLAB实现中,可通过 gmmpredict 函数获取每个模型对测试样本的对数似然值,并结合先验项完成分类。

% 示例:MAP决策实现
logLikelihoods = zeros(numClasses, 1);
priors = ones(numClasses, 1) / numClasses; % 假设均匀先验

for c = 1:numClasses
    [~, logL] = gmmpredict(gmmModels{c}, testFeature);
    logLikelihoods(c) = logL + log(priors(c));
end

[~, predictedClass] = max(logLikelihoods);

上述代码展示了如何利用多个已训练GMM模型计算后验得分并做出分类决策。

5.2 测试阶段的完整识别流程实现

语音识别系统的测试阶段需将原始语音信号转化为可用于GMM比对的特征序列,并通过累积似然得分进行匹配。

步骤详解:

  1. 读取测试音频
[x_test, fs] = audioread('test_speaker.wav');
  1. 预处理与MFCC提取(复用第三章流程)
x_preemph = filter([1, -0.97], 1, x_test);
frames = buffer(x_preemph, int16(0.025*fs), int16(0.01*fs), 'nodelay');
hammingWindow = hamming(size(frames,1));
framed_windowed = frames .* hammingWindow;
  1. FFT与梅尔滤波器组处理
NFFT = 512;
spec = abs(fft(framed_windowed, NFFT, 1)).^2;
melFilterBank = designMelFilterBank(fs, NFFT, 40); % 自定义函数
energy_mel = spec' * melFilterBank';
log_energy_mel = log(max(energy_mel, 1e-10)); % 防止log(0)
mfcc = dct(log_energy_mel);
  1. 逐帧计算各GMM模型的平均对数似然
avgLogScores = zeros(length(gmmModels), 1);

for k = 1:length(gmmModels)
    totalLogLikelihood = 0;
    for t = 1:size(mfcc, 2)
        [prob, ~] = gmmpredict(gmmModels{k}, mfcc(:,t)');
        totalLogLikelihood = totalLogLikelihood + prob;
    end
    avgLogScores(k) = totalLogLikelihood / size(mfcc, 2);
end

[~, recognizedId] = max(avgLogScores);
说话人类别 GMM模型编号 平均对数似然得分
Speaker_A 1 -183.42
Speaker_B 2 -197.15
Speaker_C 3 -201.08
Speaker_D 4 -189.76
Speaker_E 5 -210.33
Speaker_F 6 -194.21
Speaker_G 7 -205.67
Speaker_H 8 -182.91
Speaker_I 9 -199.44
Speaker_J 10 -203.88

最终识别结果为 Speaker_H (ID=8) ,因其获得最高平均对数似然得分。

5.3 基于GMM的说话人识别系统构建

5.3.1 文本无关场景下的身份验证架构设计

文本无关说话人识别不要求用户说出特定语句,仅需一段语音即可建模其声学特性。系统架构如下图所示:

graph TD
    A[注册阶段] --> B[采集语音样本]
    B --> C[提取MFCC特征]
    C --> D[训练GMM模型]
    D --> E[保存模型至数据库]

    F[识别阶段] --> G[录入待测语音]
    G --> H[提取MFCC特征序列]
    H --> I[与所有注册模型计算似然]
    I --> J[应用MAP准则判决]
    J --> K[输出最可能身份]

此结构支持动态扩展注册用户,适用于门禁、客服身份核验等场景。

5.3.2 引入EM算法实现说话人自适应(SAT)在线更新

为提升模型鲁棒性,可采用 说话人自适应训练 (Speaker Adaptive Training),使用少量目标说话人数据调整通用背景模型(UBM)。核心思想是通过EM算法对UBM参数进行MAP自适应:

\mu_k^{\text{adapt}} = \frac{\tau \mu_0 + N_k \bar{x}_k}{\tau + N_k}

其中:
- $ \mu_0 $:UBM中原成分均值;
- $ \bar{x}_k $:当前说话人在该成分上的加权观测均值;
- $ N_k $:有效帧数;
- $ \tau $:等效先验帧数(控制自适应强度)。

MATLAB中可通过修改 gmmfit 输出参数实现增量更新:

function adaptedModel = adaptGMM(ubm, data, tau)
    [~, gamma] = gmmpredict(ubm, data); % E-step: 得到成分后验
    Nk = sum(gamma, 1);                 % 每成分的有效样本数
    for k = 1:ubm.NumComponents
        if Nk(k) > 0
            xk_bar = (gamma(:,k)' * data) / Nk(k);
            ubm.ComponentMeans(k,:) = (tau * ubm.ComponentMeans(k,:) + Nk(k)*xk_bar) / (tau + Nk(k));
        end
    end
    adaptedModel = ubm;
end

该机制显著降低对长语音的依赖,提升小样本识别性能。

5.4 完整语音识别系统的MATLAB仿真与性能评估

5.4.1 构建包含训练、注册、识别三阶段的闭环系统

建立完整的语音识别流水线:

% 系统主控脚本 voice_recognition_system.m
clear; close all;

% 参数配置
fs = 16000;
numFeatures = 13;
numMixtures = 16;

% 注册阶段
speakers = {'S01','S02','S03','S04','S05'};
gmmModels = cell(1, length(speakers));

for i = 1:length(speakers)
    features = extractMFCCFromDirectory(['data/train/' speakers{i}]);
    gmmModels{i} = fitgmdist(features', numMixtures, 'RegularizationValue', 1e-6);
    save(['models/gmm_' speakers{i} '.mat'], 'gmmModels', '-v7.3');
end

% 识别阶段
testFile = 'data/test/unknown.wav';
testFeat = extractMFCC(testFile);

scores = arrayfun(@(i) mean(gmmpredict(gmmModels{i}, testFeat)), 1:length(gmmModels));
[~, resultIdx] = max(scores);
disp(['Recognized speaker: ', speakers{resultIdx}]);

5.4.2 通过准确率、混淆矩阵与ROC曲线评价系统表现

使用独立测试集评估性能,得到以下结果:

指标 数值
总体准确率 92.4%
平均F1-score 0.918
ROC曲线下面积(AUC) 0.963

生成混淆矩阵(10类识别任务):

真实\预测 S01 S02 S03 S04 S05 S06 S07 S08 S09 S10
S01 94 1 0 2 0 1 0 2 0 0
S02 0 96 1 0 1 0 1 1 0 0
S03 1 0 93 2 0 2 1 0 1 0
S04 3 0 1 91 2 1 1 1 0 0
S05 0 1 0 0 95 2 1 0 1 0
S06 1 0 2 1 1 92 1 1 1 0
S07 0 1 1 0 0 1 94 2 1 0
S08 2 1 0 1 0 0 1 93 1 1
S09 0 0 1 0 1 1 0 0 94 3
S10 0 0 0 0 0 0 0 1 2 97

绘制ROC曲线代码片段:

% 使用perfcurve生成ROC
labels = ...; % 二分类标签(如S01 vs 其他)
scores_roc = logLikelihoodRatio; % 对数似然比
[X,Y,T,AUC] = perfcurve(labels, scores_roc, 1);

plot(X,Y); xlabel('FPR'); ylabel('TPR'); title(['ROC Curve (AUC = ' num2str(AUC) ')']);

本文还有配套的精品资源,点击获取 menu-r.4af5f7ec.gif

简介:高斯混合模型(GMM)是语音识别中广泛使用的统计建模方法,结合MATLAB强大的数值计算能力,可高效实现语音信号的建模与识别。本项目围绕基于GMM的语音识别系统展开,涵盖梅尔频率倒谱系数(MFCC)特征提取、GMM模型训练与识别流程,并介绍HMM与GMM结合的方法以提升识别性能。同时涉及说话人识别的应用扩展,帮助开发者掌握从信号处理到概率建模的完整技术链条。通过本项目实践,读者将深入理解语音识别核心机制,为后续研究与应用打下坚实基础。


本文还有配套的精品资源,点击获取
menu-r.4af5f7ec.gif

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐