澳门正版图库-免费完整资料

首页/ 专利查询/ 2023-04-07公布专利

CN108986834B 有效基于编解码器架构与递归神经网络的骨导语音盲增强方法

1.一种基于编解码器架构与递归神经网络的骨导语音盲增强方法，

其特征在于

如下步骤：

数据预处理：提取气导AC和骨导BC语音幅度谱特征，对提取的语音特征数据进行对齐预处理，并在气导语音特征数据上使用稀疏非负矩阵分解计算出气导语音字典；

编码器的预训练：以骨导语音特征作为训练输入，以气导语音字典组合系数作为训练目标，采用非负、稀疏长短时记忆递归神经网络训练编码器模型，并存储训练好的深度神经网络参数，作为下一步骤中编码器的初始化参数；

编解码器的联合训练：构建基于局部注意力机制的解码器模型，以编码器输出作为解码器的输入，以气导语音特征为训练目标，联合训练编解码器模型，并存储模型参数；

语音增强：提取待增强的骨导语音特征，利用上述步骤中训练好的编解码神经网络实现特征转换，再对神经网络的输出进行反归一化和特征逆变换，最终得到增强后的时域语音。

2.根据权利要求1所述的方法，

其特征在于

提取气导和骨导语音幅度谱特征，并对提取的语音特征进行数据预处理以符合神经网络的输入需求，其中为了缩小提取的幅度谱特征的动态范围，采用对数幅度谱特征：

(1)语音数据是由同一个人同时佩戴AC与BC麦克风设备录制的AC与BC语音对，AC语音表示为A，BC语音表示为B，利用短时傅里叶变换分别将AC与BC语音时域信号y(A)、y(B)分别变换到时频域，具体步骤为：

①对语音时域信号y(A)、y(B)分别进行分帧加窗处理，窗函数为汉明窗，帧长为N，N取为2的整数次幂，帧间移动长度为H；

②对分帧后的语音帧进行K点离散傅里叶变换，获得语音的时频谱Y_A(k,t)、Y_B(k,t)，计算公式如下：

其中，k＝0,1,…,K-1表示离散频率点，K表示离散傅里叶变换时的频率点数，K＝N，t＝0,1,…,T-1表示帧序号，T为分帧的总帧数，h(n)为汉明窗函数；

(2)对频谱Y(k,t)取绝对值，计算得到幅度谱M_A、M_B，计算公式如下：

M(k,t)＝|Y(k,t)|

(3)对幅度谱M(k,t)取以e为底的对数(ln)，得到对数幅度谱L_A、L_B，计算公式如下：

L(k,t)＝lnM(k,t)

(4)采用稀疏非负矩阵分解在纯净气导语音对数幅度谱特征矩阵上计算出气导语音字典D。

3.根据权利要求2所述的方法，

其特征在于

编码器的预训练中，预训练编码器网络由三层组成：线性层Linear、长短时记忆递归网络层LSTM和非负稀疏长短时记忆递归神经网络层NS-LSTM，训练时，以骨导语音归一化后的对数幅度谱特征作为训练输入，以气导语音的对数幅度谱特征作为训练目标，采用时间反向传播算法训练神经网络模型，并存储训练好的神经网络参数，NS-LSTM神经网络单元结构以及编码器网络预训练过程如下：

(1)非负稀疏长短时记忆神经网络模型是长短时记忆模型LSTM的一种变形，通过引入非负、稀疏的控制变量，能够产生满足约束条件的输出向量，其组成单元用以下式子表示：

f_t＝σ(W_fxX_t+W_fhh_t-1+b_f)

i_t＝σ(W_ixX_t+W_ihh_t-1+b_i)

g_t＝σ(W_gxX_t+W_ghh_t-1+b_g)

o_t＝σ(W_oxX_t+W_ohh_t-1+b_o)

其中，

φ(x)＝tanh(x)，ψ(x)＝ReLU(x)＝max(0,x)为非负约束，sh_(D,u)(x)＝D(tanh(x+u)+tanh(x-u))为稀疏激活函数；

(2)丢弃正则化技术：设置丢弃比率为p，丢弃正则化公式为：

其中，

表示第l层的第j个神经元的存在概率，Bernoulli(p)指概率为p的伯努利分布，该分布是以概率p出现1，以概率1-p出现0，

是第l层的第j个神经元的输出值，

是

乘以

后的值，即该值等于

或0，

是网络权值，

是偏置，f表示激活单元，

是经过激活函数的神经元输出；

(3)编码器神经网络的训练：训练损失目标函数是网络输出值与对应AC语音对数幅度谱的均方差：

其中，c为字典系数，M＝[D,I,-I]为气导语音字典与补偿字典的集合，D为气导语音字典，I为对角元素为1其余元素为0的对角矩阵，在字典元素线性组合中起到补偿和提升表示精度的作用；训练过程中b％的训练数据作为验证集数据，训练过程中最小化损失函数，网络随机初始权值[-0.1,0.1]，具体采用的是随机梯度下降算法的一种变形均方根传播算法，学习率初始值设为lr，当验证集损失函数值未下降时，学习率乘以因子ratio，动量为momentum，当验证集损失函数值连续i个训练回合未下降时停止训练，保存验证集的损失函数值最小的神经网络模型参数，记为S′。

4.根据权利要求3所述的方法，

其特征在于

编解码器联合训练中，解码器包含两层网络结构，分别是递归网络层LSTM和线性层Linear，a_i表示基于局部注意力机制的解码器网络输入，其公式为：