[ICASSP 2019 ​​​​​​​]

Motivation

在语音增强中,由于相位谱图缺乏清晰的结构,通过监督式学习直接估计相位谱图似乎比较困难。CSM的目的是从噪声语音中估计出真实和虚拟的语音图,同时增强噪声语音的幅度和相位。本文提出了一种新的基于CSM的卷积递归网络(CRN) ,该网络可以实现与噪声和说话人无关的语音增强。

Method

A.Convolutional recurrent network

开发了CRN,将这两种拓扑结合在一起。受益于CNN的特征提取能力和RNN的时间建模能力。CRN 本质上是一种编码器-解码器架构。具体来说,编码器包括五个卷积层,解码器包括五个解卷积层。在编码器和解码器之间,插入两个LSTM层来模拟时间依赖关系。另外,skip-connection用来将每个编码器层的输出连接到相应的解码器层的输入。

B.四种候选CRN结构

考虑了四种使用不同参数共享方法的候选 CRN 结构。这些体系结构如图所示。在a中 ,编码器模块、LSTM 模块和解码器模块共享用于估计实分量和虚分量。增强语音的真实和虚拟谱图被视为解码器的最后一个去卷积层中的两个不同的输出通道。在第二种结构b中,编码器模块和LSTM模块是共享的,而两个不同的译码器模块分别用于估计实分量和虚分量。在第三种结构c中,只有编码器模块是共享的,两个LSTM模块和两个解码器模块分别用于估计实分量和虚分量。在第四种结构d中,分别使用两种不同的crn来估计增强语音的真实和虚拟谱图。两种crn都将噪声语音的真实和虚拟谱图作为输入特征。

在我们的实验中,我们发现 CRN-b 和CRN-c 在 STOI 和 PESQ 指标上都比 CRN-a和 CRN-d 获得了更好的性能,而 CRN-b 和CRN-c 获得了相似的 STOI 和 PESQ 指标。此外,四种体系结构中的不同参数共享机制相当于不同的模型大小: CRN-a < CRN-b

C.分组策略

D. proposed CRN architecture

数据集

使用WSJ0 SI-84训练集,其中包括来自83 名发言者(42 名男性和41名女性)的7138个话语。其中6 名(3 名男性和 3 名女性)发言人作为未经训练的发言人进行测试。77名用于训练。信噪比(SNR)从{-5, -4, -3, -2, -1, 0}dB中随机采样。我们的测试集由6名未经训练的发言人的256条语音和创建的150个混合物组成。我们使用三个snr作为测试集,即. -5, 0 and 5 dB。

实验结果

a.不同参数共享机制的比较

这些架构中没有使用组策略。可以观察到CRN-b和CRN-c在所有条件下始终优于CRN-a 和CRN-d。

b.不同模型和训练目标的比较

提出的使用TCS的CRN比使用cIRM和cRM-SA的相同CRN以及使用TMS的LSTM获得了更好的性能。

c.通过复杂光谱映射来评估相位估计 

提出的方法产生了一个比有噪声相位更好的估计相位。

总结

这篇文章提出了一个使用卷积递归网络进行复谱映射的新框架。增强系统是因果的,与噪声和扬声器无关。在 STOI 和 PESQ方面,它明显优于现有的 CNN 复谱映射和强 CRN 幅度谱映射。此外,纳入了一个新开发的小组策略,以大幅提高模型的效率。

2022.1.22

查看原文