智能语音技术（二）

声音特征本质上是语音信号在时域、频域或其他变换域（如倒谱域）上的数学表示。它们旨在捕捉语音信号中与说话人身份、语言内容、情感状态、环境噪声等相关的关键信息。声音特征是智能语音技术的基石。理解各种特征的物理意义、感知基础和计算方法，以及它们在不同任务中的适用性，对于设计、开发和优化智能语音系统至关重要。物理声学特征（尤其是 MFCC）和感知特征提供了基础，而模型驱动特征则代表了当前的研究前沿和应用趋

齐齐大魔王

599人浏览 · 2026-03-23 15:31:41

齐齐大魔王 · 2026-03-23 15:31:41 发布

一、声音特征概述

声音特征本质上是语音信号在时域、频域或其他变换域（如倒谱域）上的数学表示。它们旨在捕捉语音信号中与说话人身份、语言内容、情感状态、环境噪声等相关的关键信息。

二、声音特征种类详细分析

1. 物理声学特征 (Physical/Acoustic Features)

这类特征直接从语音信号的物理属性中提取，反映声音的客观属性。

时域特征 (Time-Domain Features)
- 短时能量 (Short-Term Energy): 描述信号在短时间片段内的幅度大小或强度。计算方式通常是在一个短时窗口内对信号幅度平方求和或求平均：
  $E_n = \sum_{m=-\infty}^{\infty} [x(m) \cdot w(n - m)]^2$
  或
  $E_n = \frac{1}{N} \sum_{m=0}^{N-1} [x(n+m) \cdot w(m)]^2$
  其中 $x (m)$ 是语音信号， $w (m)$ 是窗函数（如汉明窗）， $N$ 是窗长。用于端点检测、清浊音判断、重音检测。
- 短时过零率 (Short-Term Zero Crossing Rate, ZCR): 统计信号在一个短时窗口内穿过零轴的次数（即符号变化的次数）。
  $Z_n = \sum_{m=0}^{N-1} | \text{sgn}[x(n+m)] - \text{sgn}[x(n+m-1)] | / 2$
  其中 $sgn\text{sgn}$ 是符号函数。清音段（如/s/、/f/）的过零率通常显著高于浊音段（如元音）。常用于端点检测、清浊音分类。
- 波形特征 (Waveform Characteristics): 如峰度、偏度等统计量，描述信号分布的形态。
频域特征 (Frequency-Domain Features)
- 基频 (Fundamental Frequency, $F_0$ / Pitch): 语音信号中周期性成分的最低频率，对应于声带振动的频率。浊音才有基频。提取方法包括自相关法、倒谱法、谱峰检测法等。 $F_0$ 携带了语调、情感、说话人性别等信息。
- 共振峰频率 (Formant Frequencies, $F_1, F_2, F_3, ...$ ): 声道谐振产生的频谱峰值对应的频率。不同元音的主要区别在于前几个共振峰（ $F_1$ , $F_2$ ）的位置。共振峰反映了声道的形状和尺寸，对语音内容识别和说话人识别都很重要。
- 频谱包络 (Spectral Envelope): 描述语音信号频谱的整体形状，主要由声道的频率响应决定。反映了元音音色、辅音发音部位等信息。常用线性预测系数、倒谱系数等方式描述。
- 谱质心 (Spectral Centroid): 频谱能量分布的中心位置，类似于“亮度”的度量。
  $\frac{\sum_{k=1}^{K} k \cdot |X(k)|}{\sum_{k=1}^{K} |X(k)|}$
  其中 $X (k)$ 是第 $k$ 个频率分量的幅度。与音色相关。
- 谱带宽 (Spectral Bandwidth): 描述频谱围绕质心的扩散程度。
- 谱滚降点 (Spectral Roll-off): 频谱中累积能量达到特定百分比（如85%）处的频率点。反映频谱的集中程度。
- MFCC (Mel-Frequency Cepstral Coefficients): 最重要和最广泛使用的特征之一。它模拟了人耳的非线性频率感知特性（Mel 标度），并通过倒谱分析分离了激励源（声带振动）和声道滤波器的影响。
  计算步骤：
  1. 预加重 (Pre-emphasis)
  2. 分帧加窗 (Framing & Windowing)
  3. 计算每帧的 DFT 幅度谱
  4. 将幅度谱通过一组 Mel 三角滤波器组
  5. 对每个滤波器组的输出取对数
  6. 对对数能量做 DCT (离散余弦变换)，取前 12-13 个系数作为 MFCC
  7. 通常还会加上能量和一阶/二阶差分（Delta, Delta-Delta）来表征动态信息。
    优点：对语音内容高度表征，对说话人特性有一定鲁棒性，广泛应用于 ASR、说话人识别等。
- PLP (Perceptual Linear Prediction): 另一种考虑人耳感知特性的特征，在 Mel 标度基础上还引入了响度压缩和等响度曲线等心理声学模型，再进行线性预测分析。

2. 感知特征 (Perceptual Features)

这类特征试图描述人耳对声音的主观感受。

响度 (Loudness): 与信号的强度（能量）相关，但也受频率影响（人耳对不同频率的敏感度不同，参考等响度曲线）。
音高 (Pitch): 与基频 $F_0$ 直接对应，但感知是非线性的（如八度）。
音色 (Timbre): 描述声音的“色彩”或“质地”，由频谱包络（共振峰）、谐波结构、噪声成分、起音/衰减特性等共同决定。MFCC、PLP、频谱包络参数等都是描述音色的客观手段。
尖锐度 (Sharpness): 与高频成分的多少有关。
粗糙度 (Roughness): 与调幅频率有关。

3. 模型/学习驱动特征 (Model/Learning-Driven Features)

随着深度学习的发展，这类特征变得越来越重要。

瓶颈特征 (Bottleneck Features): 在深度神经网络（DNN）中，选择某一隐藏层（通常是维度较低的层）的输出作为特征。该层被迫学习输入数据的一个压缩表示，可能包含更鲁棒、更抽象的信息。
深度特征 (Deep Features): 泛指利用深度神经网络（如 CNN, RNN, Transformer）从原始语音数据（波形或频谱图）中自动学习到的特征表示。模型的不同层可能捕捉到不同抽象级别的信息（低级：边缘/纹理；高级：语义/说话人）。
嵌入向量 (Embeddings): 通常指模型（如说话人识别网络、语音识别网络）最后一层隐藏层或专门设计的映射层输出的一个固定长度的向量（如 d-vector, x-vector）。这个向量空间中的距离代表了语音片段之间的相似度（如说话人相似度、内容相似度）。广泛应用于说话人识别、验证、聚类等任务。
自动编码器特征 (Autoencoder Features): 通过训练一个自动编码器（编码器+解码器）来重建输入语音。编码器的输出（潜变量）可以作为特征，它捕捉了重构原始信号所需的关键信息。

4. 高级/特定任务特征

韵律特征 (Prosodic Features): 描述超音段信息，包括：
- 语调/音高轮廓 (Intonation/Pitch Contour): $F_0$ 随时间变化的模式，表示疑问、陈述、强调等。
- 时长/节奏 (Duration/Rhythm): 音节、音素或静音段的时长分布，语速变化。
- 重音/能量轮廓 (Stress/Energy Contour): 能量随时间变化的模式，用于强调单词或音节。
发音特征 (Articulatory Features): 试图描述发音器官的位置或状态（如唇形、舌位、声门开闭），通常需要特定模型或技术（如电磁发音仪）来直接测量，但在语音处理中有时会通过声学特征来间接推断。
声纹特征 (Voiceprint Features): 特指用于表征说话人身份的特征，可以是传统特征（如 MFCC、PLP）、 $F_0$ 统计信息、韵律模式，也可以是模型驱动特征（如 x-vector）。要求对说话人差异敏感，对同一说话人的语音变化（内容、情绪）鲁棒。

三、特征选择与应用

选择哪种特征取决于具体的智能语音任务：

语音识别 (ASR): MFCC, PLP, Filter Bank 特征及其动态信息是主流。深度学习模型中，原始频谱图或 Filter Bank 特征也常作为输入，由网络自动学习特征。
说话人识别/验证 (SID/SV): MFCC, PLP 常作为基础特征输入模型。模型学习到的嵌入向量 (d-vector, x-vector) 是当前最先进方法的核心特征。 $F_0$ 和韵律特征有时作为补充。
语音合成 (TTS): 需要详细描述语音内容、说话人特性和韵律的特征。常用基础声学特征（如频谱包络、 $F_0$ ）、语言学特征（音素、音节边界）和韵律标签（重音、停顿、语调）。
情感识别 (SER): 需要捕捉情感相关的声学变化。常用特征包括： $F_0$ 统计量（均值、范围、方差）、能量统计量、谱质心、谱通量、MFCC、韵律特征（语速、停顿）、有时也使用深度特征。
语音转换 (VC): 需要分离和表征语音中的内容信息、说话人信息和韵律信息。常用频谱特征（如 STFT 幅度谱、Mel 谱）、 $F_0$ 、非周期分量（AP）等。编码器-解码器框架中的隐变量也扮演着特征的角色。

四、总结

声音特征是智能语音技术的基石。理解各种特征的物理意义、感知基础和计算方法，以及它们在不同任务中的适用性，对于设计、开发和优化智能语音系统至关重要。物理声学特征（尤其是 MFCC）和感知特征提供了基础，而模型驱动特征则代表了当前的研究前沿和应用趋势，能够自动学习并提取更鲁棒、更具表征力的信息。

特征大类	特征子类/示例	主要维度	提取方法/来源	典型应用
物理声学特征	短时能量、过零率	时域	时域计算	端点检测、清浊音判断
	基频 ( $F_0$ )、共振峰 ( $F_1, F_2$ )	频域	自相关、倒谱、谱峰检测	语调、情感、音色、说话人
	谱质心、谱带宽	频域	频谱统计计算	音色描述
	MFCC、PLP、Filter Bank	频域/倒谱域	FFT + Mel 滤波 + DCT	ASR, SID 基础特征
感知特征	响度、音高、音色、尖锐度、粗糙度	主观感知	由物理特征映射 (如 $F_0$ ->音高)	语音质量评估、情感分析参考
模型驱动特征	瓶颈特征、深度特征	高维隐空间	DNN/CNN/RNN 隐藏层输出	多种任务的特征输入
	嵌入向量 (d-vector, x-vector)	固定维度向量空间	专门训练的映射网络输出	说话人识别/验证核心特征
	自动编码器特征	潜变量空间	自编码器编码层输出	降维、特征学习
高级特征	语调轮廓、时长/节奏、重音轮廓	韵律 (超音段)	$F_0$ 、能量、时长统计分析	TTS, SER, 语音分析
	声纹特征	说话人身份	组合特征或模型嵌入	说话人识别/验证

选择合适的特征组合和提取方法，需要结合具体任务需求、数据特性和计算资源进行权衡。

腾讯云开发者社区

腾讯云面向开发者汇聚海量精品云计算使用和开发经验，营造开放的云计算技术生态圈。

更多推荐

Elasticsearch复杂数据类型终极指南：从入门到精通

Elasticsearch作为功能强大的搜索引擎，支持多种复杂数据类型，让开发者能够灵活处理各种结构化和非结构化数据。本文将带你全面了解Elasticsearch中的复杂数据类型，从基础概念到实际应用，助你轻松掌握数据建模的核心技巧。## 内部对象：构建层级化数据结构在Elasticsearch中，对象类型（Object）是最基础的复杂数据类型之一，用于表示具有嵌套关系的数据。例如，我们可

腾讯云开发者社区

终极指南：Flink SQL连接器版本管理从混乱到有序的升级之路

Apache Flink作为流处理领域的佼佼者，其SQL连接器的版本管理一直是开发者面临的核心挑战。本文将系统讲解Flink SQL连接器版本管理的最佳实践，帮助你轻松应对版本兼容性问题，实现从混乱到有序的升级之旅。## 连接器版本管理的常见痛点 😫在Flink应用开发中，连接器版本管理常常让开发者头疼不已。不同版本的连接器可能导致各种兼容性问题，例如API变更、功能差异甚至运行时错误。

腾讯云开发者社区

如何快速搭建Neon无服务器PostgreSQL：面向初学者的完整指南

Neon是一款革命性的无服务器PostgreSQL解决方案，它通过分离存储和计算层，实现了自动扩缩容、类代码式数据库分支以及零级扩展能力。本指南将帮助你从零开始搭建Neon开发环境，体验这款创新数据库的强大功能。## 准备工作：环境要求与依赖项在开始搭建Neon环境前，请确保你的系统满足以下要求：- Linux操作系统（推荐Ubuntu 20.04+或Debian 11+）- Git