CN108986834B 有效 基于编解码器架构与递归神经网络的骨导语音盲增强方法
技术领域 [0001]本发明属于语音信号处理技术领域,是一种基于编解码器架构与深度长短时记忆递归神经网络的骨导语音盲增强方法。 背景技术 [0002]骨导麦克风是一种非声传感器设备,人说话时声带振动会传递到喉头和头骨,这种麦克风正是通过采集这种振动信号并转换为电信号来获得语音。与传统的空气传导麦克风语音不同,背景噪声很难对这类非声传感器产生影响,所以骨导语音从声源处就屏蔽了噪声,具有很强抗噪性能,在军事和民事上均已得到应用。例如,许多国家在军事装备上,例如武装直升机、坦克中都配备了基于骨导的通讯系统,美国的“未来战士”单兵作战系统中骨导耳机是其重要通信工具,在民用方面,美国iASUS公司,针对赛车、摩托赛车等极限运动,研发了多款喉头麦克风、骨导耳机等设备,日本的松下、索尼等公司也研发出多种骨导通讯产品,并被应用到消防、林业、石油勘测及开采、矿山、紧急救援、特勤、工程建设等领域。 [0003]虽然骨导语音能够有效抵抗环境噪声的干扰,但是由于人体信号传导的低通性以及振动信号的固有特点,骨导语音呈现高频部分缺失、中频部分厚重、气流音、鼻腔音缺失等现象,语音听起来比较沉闷、不够清晰,严重影响了人们的听觉感受。另外,骨导语音中也会混入一些非声学的物理噪声,例如设备与紧贴的皮肤产生的摩擦噪声、极限运动时强大的风力摩擦噪声、人咀嚼或牙齿相碰时引入的噪声等,这些噪声也降低了的通信质量。因此,开展对骨导语音增强算法的研究,对进一步推进骨导麦克风产品的实用化进程,改善强噪声环境下的语音通信质量,具有重要的理论意义和实用价值。 [0004]目前,骨导语音盲增强主要有三种比较典型的方法:无监督频谱扩展法、均衡法、谱包络转换法。 [0005]无监督频谱扩展法(Bouserhal R E,Falk T H,Voix J.In-ear microphonespeech quality enhancement via adaptive filtering and artificial bandwidthextension.[J]. Journal of the Acoustical Society of America.2017)认为骨导语音与气导语音具有一致性的共振峰结构,或者语音的低频与高频之间具有一致的谐波结构,利用这种结构特性,可直接对低频频谱进行扩展,得到增强的高频共振峰或者谐波结构,即实现了骨导语音的盲增强。 [0006]均衡法的思想是找到传输通道变换函数h(t)的逆变换函数g(t),从骨导语音信号中恢复出气导语音信号。均衡法首先由Shimamura提出(Shimamura T,Tamiya T.Areconstruction filter for bone-conducted speech[C].Circuits and Systems,2005.Midwest Symposium on,2005.2005:1847-1850),通过建模g(t),并构造逆滤波器实现骨导语音增强。均衡法能够保持语音中低频的谐波结构,并有效压缩骨导语音中过多的能量,但较难恢复骨导语音中的高频成分。 [0007]目前,大多数的骨导语音盲增强采用基于谱包络转换的方法(Turan,M.A.T. andE.Erzin,Source and Filter Estimation for Throat-Microphone Speech Enhancement[J],2016.Mohammadi,S.H.and A.Kain,An overview of voice conversion systems[J],2017)。谱包络转换法的基本思路是根据语音的源-滤波器模型,将语音分解为激励源特征与谱包络特征。在训练阶段,骨导语音与气导语音数据经过分析合成模型,抽取激励特征和谱包络特征,通过训练转换模型建立谱包络特征之间的转换关系;在增强阶段,待增强的骨导语音分解得到激励特征和谱包络特征,利用训练好的模型从骨导语音谱包络特征中估计出气导谱包络特征,再利用估计出的包络与骨导语音原始的包络特征合成出增强的语音。 [0008]以上基于源-滤波模型的分解合成方法,在骨导语音增强上取得了一定进展,但是普遍存在特征选择困难、高噪声环境下性能不理想、对语音高频成分恢复不准确等问题,导致增强后的语音低频厚重、声音不够清晰可懂度不足、存在过程噪声等。有的研究已开始采用基于信号模型的分解合成方法,将语音信号分为高维幅度谱与相位,并利用深度学习技术,建立骨导语音与纯净气导语音高维幅度谱之间的关系,在恢复骨导语音时取得了不错的效果,但是由于其未使用字典引入结构信息等原因,仍然存在低频厚重、高频信息恢复不完整,声音不够清晰可辨等一系列问题。 发明内容 [0009]本发明的目的在于提供一种基于编解码器架构与递归神经网络的骨导语音盲增强方法,以数据为驱动,通过训练获取模型参数,再利用训练好的模型增强骨导语音,解决高频成分的恢复、骨导无声段恢复及较强噪声背景下的恢复等问题,从而提升骨导语音的清晰度及可懂度,进一步改善骨导语音的增强质量。 [0010]实现本发明目的的技术解决方案为:一种基于编解码器架构与递归神经网络的骨导语音盲增强方法,包括如下步骤: [0011]数据预处理,提取气导和骨导语音特征,对提取的语音特征数据进行对齐预处理,并在气导语音特征数据上使用稀疏非负矩阵分解(SparseNMF)计算出气导语音字典; [0012]编码器的预训练,以骨导语音特征作为训练输入,以气导语音字典组合系数作为训练目标,采用非负、稀疏长短时记忆递归神经网络(NS-LSTM)训练编码器模型,并存储训练好的深度神经网络参数,作为下一步骤中编码器的初始化参数; [0013]编解码器的联合训练,构建基于局部注意力机制的解码器模型,以编码器输出作为解码器的输入,以气导语音特征为训练目标,联合训练编解码器模型,并存储模型参数; [0014]语音增强,提取待增强的骨导语音特征,利用上述步骤训练好的编解码神经网络实现特征转换,再对神经网络的输出进行反归一化和特征逆变换,最终得到增强后的时域语音。 [0015]本发明与现有技术相比,其显著优点是:将语音字典与非负稀疏递归神经网络应用到骨导语音增强任务中,构建了基于局部注意力机制的编解码器架构,以数据为驱动,通过训练得到网络模型参数,利用训练好的模型有效提升骨导语音增强质量,具体包括: [0016](1)有效利用了稀疏非负矩阵分解计算的语音字典提供的结构化信息,更好地重建语音高频成分; [0017](2)编码器的输出为语音字典的线性组合系数,而语音字典通过SparseNMF由真实纯净的气导语音提取,即使得编码器具备较好的抗噪能力,在编码的过程中可以自动去除掉骨导语音中的噪声; [0018](3)有效利用了稀疏非负递归神经网络在字典基础上建模骨导语音到气导语音特征转换的复杂非线性关系,相比于传统的神经网络,非负稀疏神经网络通过特别设计的网络单元结构,可有效学习序列长时依赖关系,并建立与语音字典的映射关系; [0019](4)基于局部注意力机制的解码器网络,通过训练来确定解码器的输入内容,使其具备对骨导语音无声段(对应的气导语音不一定是无声的)的恢复能力,对强噪声同样有抗干扰能力,可进一步提升骨导语音恢复质量。 [0020]下面结合附图对本发明作进一步详细描述。 附图说明 [0021]图1是本发明基于编解码器架构与递归神经网络的骨导语音盲增强方法流程图。 [0022]图2是本发明使用的编解码器架构示意图。 [0023]图3是非负稀疏NS-LSTM单元结构示意图。 [0024]图4-1图4-2是本发明骨导语音盲增强实例图。 具体实施方式 [0025]结合图1图2,本发明基于编解码器架构与递归神经网络的骨导语音盲增强方法的具体实施分为两个阶段:训练阶段和增强阶段。训练阶段包含步骤一、步骤二、步骤三,增强阶段包含步骤四、步骤五。训练阶段和增强阶段语音数据不重复,即没有说话内容相同的语句。 [0026]第一阶段是训练阶段:通过训练数据对神经网络模型进行训练。 [0027]步骤一:提取气导(AirConduction,AC)和骨导(BoneConduction,BC) 语音幅度谱特征,并对提取的语音特征进行数据预处理以符合神经网络的输入需求,具体分为以下处理阶段,其中前两个处理阶段与专利《基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法》(CN102915742B)的数据预处理步骤一致,为了缩小提取的幅度谱特征的动态范围,采用了对数幅度谱特征,其步骤为: [0028](1)语音数据是由同一个人同时佩戴AC与BC麦克风设备录制的AC与BC 语音对,AC语音可表示为A,BC语音可表示为B,利用短时傅里叶变换(STFT) 分别将AC与BC语音时域信号y(A)、y(B)分别变换到时频域,具体步骤为: [0029]①对语音时域信号y(A)、y(B)分别进行分帧加窗处理,窗函数为汉明窗,帧长为N,N取为2的整数次幂,帧间移动长度为H; [0030]②对分帧后的语音帧进行K点离散傅里叶变换,获得语音的时频谱YA(k,t)、 YB(k,t),计算公式如下: [0031] [0032]其中,k=0,1,…,K-1表示离散频率点,K表示离散傅里叶变换时的频率点数, K=N,t=0,1,…,T-1表示帧序号,T为分帧的总帧数,h(n)为汉明窗函数; [0033](2)对频谱Y(k,t)取绝对值,计算得到幅度谱MA、MB,计算公式如下: [0034]M(k,t)=|Y(k,t)| [0035](3)对幅度谱M(k,t)取以e为底的对数(ln),得到对数幅度谱LA、LB,计算公式如下: [0036]L(k,t)=lnM(k,t) [0037](4)采用稀疏非负矩阵分解(Sparse Non-negative Matrix Factorization:Sparse NMF)在纯净气导语音对数幅度谱特征矩阵上计算出气导语音字典D。 [0038]步骤二:编码器的预训练:预训练编码器(Encoder)网络由三层组成(见图2):线性层(Linear)、长短时记忆递归网络层(LSTM)和非负稀疏长短时记忆递归神经网络层(NS-LSTM)。训练时,以骨导语音归一化(Normalization)后的对数幅度谱特征作为训练输入,以气导语音的对数幅度谱特征作为训练目标,采用时间反向传播算法(Back PropagationThrough Time,BPTT)训练神经网络模型,并存储训练好的神经网络参数,NS-LSTM神经网络单元结构以及编码器网络预训练过程如下: [0039](1)非负稀疏长短时记忆神经网络模型是长短时记忆模型(LSTM)的一种变形,通过引入非负、稀疏的控制变量,能够产生满足约束条件的输出向量,其组成单元如图3所示,可用以下式子表示: [0040]ft=σ(WfxXt+Wfhht-1+bf) [0041]it=σ(WixXt+Wihht-1+bi) [0042]gt=σ(WgxXt+Wghht-1+bg) [0043]ot=σ(WoxXt+Wohht-1+bo) [0044]St=gt⊙it+St-1⊙ft [0045]ht=sh(D,u)(ψ(φ(St))⊙ot) [0046]其中,φ(x)=tanh(x),ψ(x)=ReLU(x)=max(0,x)为非负约束,sh(D,u)(x)=D(tanh(x+u)+tanh(x-u))为稀疏激活函数; [0047](2)丢弃正则化技术:为提高模型的鲁棒性,将丢弃正则化(dropoutregularization)技术应用于神经网络训练中,该技术是通过削减神经单元数,从而达到提高泛化能力的作用。设置丢弃比率为p(例如p设为0.2),丢弃正则化公式为: [0048] [0049] [0050] [0051]其中,表示第l层的第j个神经元的存在概率,Bernoulli(p)指概率为p的伯努利分布,该分布是以概率p出现1,以概率1-p出现0,是第l层的第j个神经元的输出值,乘以后的值,即该值等于或0,是网络权值,是偏置,f表示激活单元,是经过激活函数的神经元输出。 [0052](3)编码器神经网络的训练:训练损失目标函数是网络输出值与对应AC语音对数幅度谱的均方差: [0053] [0054] [0055]其中,c为字典系数,M=[D,I,-I]为气导语音字典与补偿字典的集合,I 为对角元素为1其余元素为0的对角矩阵,在字典元素线性组合中起到补偿和提升表示精度的作用。训练过程中b%(例如b设为10-20之间)的训练数据作为验证集数据,训练过程中最小化损失函数,网络随机初始权值[-0.1,0.1],具体采用的是随机梯度下降算法(StochasticGradient Descent,SGD)的一种变形均方根传播算法(Root Mean Square Propagation,RMSProp),学习率初始值设为lr (例如lr设为0.01),当验证集损失函数值未下降时,学习率乘以因子ratio(例如ratio设为0.1),动量为momentum(例如momentum设为0.9),当验证集损失函数值连续i(例如i设为3)个训练回合未下降时停止训练,保存验证集的损失函数值最小的神经网络模型参数,记为S′。 [0056]步骤三:编解码器联合训练。解码器(Decoder)结构如图2所示,包含两层网络结构,分别是递归网络层(LSTM)和线性层(Linear),ai表示基于局部注意力机制的解码器网络输入,其公式为: [0057] [0058]ej是编码器第j个输出,N(i)表示编码器第i个输出的邻域输出,可在 10-20个输出取值。ωij表示这些邻近输入的加权组合系数,其计算公式为: [0059] [0060]scoreij是编码器第j个输出ej对解码器第i个输入ai的加权分数,经过归一化后得到线性组合的权重。Wa是一个线性层的参数矩阵,解码器第i-1时刻的输出经过线性层与ej做内积,用于计算加权分数(scoreij)。 [0061]解码器的作用是在经过字典编码的合成语音基础上,通过训练获得更接近真实的语音信号。解码器采用与编码器联合训练的方式进行优化,按照逐个时间段优化的方式,以真实语音信号的对数幅度谱特征构造均方误差损失函数,经过梯度下降获得最优的网络参数,并存储在本地,记为S。 [0062]第二阶段是增强阶段:利用训练好的编解码器网络模型,对骨导语音进行增强。 [0063]步骤四:提取待增强的骨导语音特征,并根据步骤一所获得的对齐后的对数幅度谱LQB的数据统计特征,包括均值和方差进行数据归一化: [0064]首先,对待增强BC语音数据BE,采用傅里叶变换将语音时域波形变换到时频域提取待增强的BC语音特征的过程如图1增强部分所示,相比于步骤一中的特征提取,该步骤多了相位提取步骤,即在得到时域语音频谱后,不仅需要计算幅度谱,还需要计算相位,根据时频谱计算得到其幅度谱和相位计算公式为: [0065] [0066] [0067]其中,atan2(x)为四象限反正切函数,imag(x)与real(x)分别代表时频谱的虚部与实部。根据幅度谱计算得到对数幅度谱然后,根据训练阶段得到的BC语音对数幅度谱的均值和方差进行归一化: [0068] [0069]步骤五:增强时,利用第一阶段训练好的编解码器神经网络对步骤四提取的骨导语音特征进行转化,再对神经网络的输出进行反归一化和特征逆变换,最终得到增强后的时域语音。 [0070]首先,将归一化后的输入到训练好的编解码神经网络模型S中,计算得到网络输出,即增强后的特征 [0071]其次,将增强后的特征进行反归一化以及逆变换,最终得到增强后的时域语音,步骤如下: [0072](1)根据训练阶段AC语音对数幅度谱的均值和方差将双向门递归神经网络得到的输出进行反归一化,得到对数幅度谱计算公式如下: [0073] [0074](2)将对数幅度谱进行指数运算,得到幅度谱计算公式如下: [0075] [0076](3)利用幅度谱以及相位信息计算得到时频谱计算公式如下: [0077] [0078](4)利用傅里叶逆变换以及语音分帧后去重叠加公式,将频谱转化到时域,最终得到增强后的时域语音信号y(BE)。 [0079]实施例 [0080]图4-1图4-2为本发明实施例图,实例语音长度约为3.5s和4s,语音采样频率为8kHz,设置语音帧长32ms,帧移10ms,对每帧进行离散傅里叶变换,频点数K=256,得到的对数幅度谱维度是129维。图4-1图4-2中,(a)为骨导语音的语谱图,(b)为采用LSTM深度神经网络增强后的语音语谱图,(c) 为本发明增强后的语音语谱图。可以看出,增强后语音的高频信号和缺失的气音、摩擦音等信号均得到了有效恢复,并且对比LSTM算法有了较好的性能提升,另外主观测试结果也表明本发明取得了良好的骨导语音增强效果。
现在,一起体验智慧芽的产品和服务
自动注册,无需人工审核,即可立即开始查询专利
立即注册
澳门正版图库

AI助手