深度学习模型:

​ 我总结了之前看的模型,并又寻找了基于transformer的模型,挑选了四个性能较好(评判标准是各种语音评价指标、该论文提出的模型与已有模型相比较得到的结果)的模型,其中前面三个是基于transformer的模型,最后一个是基于CRN网络的模型。每个论文的链接都在介绍后给出。

  • 《T-GSA: Transformer with Gaussian-Weighted Self-Attention for Speech Enhancement》该论文发表于2020.5的ICASSP上。提出了一种模型Transformer with Gaussian-weighted self-attention (T-GSA),其注意权重根据目标和上下文符号之间的距离衰减。与RNN不同,transformer可以并行处理输入序列。此外,可通过高斯方程计算注意权重解决上下文之间的长期依赖关系,其中衰减由高斯方程确定。

​ 该论文认为输入和输出序列之间的对其是不必要的,所以只使用transformer中的encoder(如图1)。首先输入含噪时域语音的STFT,通过encoder得到语音信号的时频掩码,这个掩码是通过缩放噪声预测的干净的语音序列,最后通过iSTFT获得增强后的时域信号。以上是T-GSA模型的实现机制。

在这里插入图片描述
​ 图1

​ 其中Gaussian-weighted self-attention如图2所示:

在这里插入图片描述
​ 图2

​ 实验结果表明,与传统的Transformer和RNN相比,所提出的自我注意方案显著提高了SDR和PESQ分数,T-GSA显著提高了语音增强性能,并优于以前(2020.5之前)的所有网络模型。

https://arxiv.org/pdf/1910.06762.pdf

  • 《TSTNN:TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN》发表于2021年5月的ICASSP,提出了一种用于时域端到端语音增强的两级变压器神经网络(TSTNN: two-stage transformer neural network)。

​ 最大的特点是该模型在编码器和解码器之间结合了TSTM来学习远程语音序列的局部和全局上下文信息。由的encoder、TSTM、masking module, decoder组成。后面将介绍该模型主要的两个特点。

​ 首先该模型在原有的transformer模型上进行改进:原有transformer结构由编码器和解码器组成。在该模型中,只使用编码器部分,原始transformer由三个重要模块组成:positional encoding, multi-head attention and position-wise feed-forward network。但是在改进的encoder中删除了位置编码部分,因为它不适用于声学序列。且前馈网络的第一个完全连接层被GRU层取代。改进后的transformer如图3所示。

在这里插入图片描述
​ 图3

​ 其次是 two-stage transformer block(图4),它基于改进的transformer,具有local transformer和global transformer,其分别提取局部和全局上下文信息。解决了长期依赖问题。

在这里插入图片描述
​ 图4

​ 接下来将介绍模型的运作机理,该模型首先利用encoder将语音信道数增加、帧大小减半,其次通过由四个堆叠的two-stage transformer block的TSTM学习局部和全局上下文特征,masking module利用该特征来获得用于去噪的mask,最后通过encoder重建增强后的语音信号。

在这里插入图片描述
​ 图5

​ 模型在时域模型中表现最好,且有最小的参数量(0.92Mb),在TF也优于大多数模型。

在这里插入图片描述
​ 图6

https://arxiv.org/ftp/arxiv/papers/2103/2103.09963.pdf

  • 《Lightweight Causal Transformer with Local Self-Attention for Real-Time Speech Enhancement》该论文发表于2021.9的ISCA上。描述了一种新的语音增强transformer结构。该模型使用local causal self-attention,这使得它轻量级,因此特别适合于计算资源有限的环境中的实时语音增强。

​ 引入local attention机制解决transformer禁止长序列输入的问题,因为语音目标的时间范围大致在几秒钟,这一时间范围已经包含足够的信息,因此结合local attention是很有必要的。并且使用 four-module transformer模型,具有local causal self-attention,对语音序列进行实时的增强。解决传统transformer不是因果关系的问题。

​ 该模型做了销蚀实验得到的最优结构,与LSTM和CNN模型作比较,模型的参数量分别仅为LSTM和CNN的28%和44%。在所有语音质量和可懂度方面都优于LSTM和CNN模型,只需模型复杂度的一小部分。

在这里插入图片描述
图7

http://staff.ustc.edu.cn/~jundu/Publications/publications/oostermeijer21_interspeech.pdf

  • 《DPCRN: Dual-Path Convolution Recurrent Network for Single Channel Speech Enhancement》该论文在2021.7发表于ISCA(国际语音通讯会议).

​ DPRNN被提出来,以便更有效地对时域中的极长序列进行语音增强。通过将长序列分割成较小的块,并应用块内和块间的RNN。在该论文中,将DPRNN模块与CRN相结合,设计了一个名为双路径卷积递归网络(DPCRN)的模型,用于时频域的语音增强。用DPRNN模块取代了CRN中的RNN,其中块内RNN被用来模拟单帧的频谱模式,块间RNN被用来模拟连续帧之间的依赖。

​ 该模型由encoder、双路径RNN模块、decoder构成,其中编码器、解码器的结构类似于CRN。编码器先对语音序列提取信号特征,然后由双路径RNN将长的序列特征被分割成较小的块,由块内和块间的RNN迭代处理,减少每个RNN要处理的序列长度。最后由编码器重建增强后的语音信号。
在这里插入图片描述
​ 图8

​ 仅凭0.8M的参数,提交的DPCRN模型在Interspeech 2021年深度噪声抑制(DNS)挑战赛的赛道上取得了3.57的总体平均意见得分(MOS)。并且在MOS得分方面优于DTLN、DCCRN模型。
在这里插入图片描述
​ 图9

​ 实验结果表明,与传统的Transformer和RNN相比,所提出的自我注意方案显著提高了SDR和PESQ分数,T-GSA显著提高了语音增强性能,并优于以前(2020.5之前)的所有网络模型。

https://arxiv.org/pdf/2107.05429.pdf

​ 下表是这四个模型的部分性能参数

PESQSSNRCOVL
T-GSA3.0610.783.62
TSTNN2.969.73.67
LCT3.35
DPCRN2.46
  | **3.67** |

| LCT | 3.35 | | |
| DPCRN | 2.46 | | |

Logo

腾讯云面向开发者汇聚海量精品云计算使用和开发经验,营造开放的云计算技术生态圈。

更多推荐