CN108986834B 有效 基于编解码器架构与递归神经网络的骨导语音盲增强方法
1.一种基于编解码器架构与递归神经网络的骨导语音盲增强方法,其特征在于如下步骤:
数据预处理:提取气导AC和骨导BC语音幅度谱特征,对提取的语音特征数据进行对齐预处理,并在气导语音特征数据上使用稀疏非负矩阵分解计算出气导语音字典;
编码器的预训练:以骨导语音特征作为训练输入,以气导语音字典组合系数作为训练目标,采用非负、稀疏长短时记忆递归神经网络训练编码器模型,并存储训练好的深度神经网络参数,作为下一步骤中编码器的初始化参数;
编解码器的联合训练:构建基于局部注意力机制的解码器模型,以编码器输出作为解码器的输入,以气导语音特征为训练目标,联合训练编解码器模型,并存储模型参数;
语音增强:提取待增强的骨导语音特征,利用上述步骤中训练好的编解码神经网络实现特征转换,再对神经网络的输出进行反归一化和特征逆变换,最终得到增强后的时域语音。
2.根据权利要求1所述的方法,其特征在于提取气导和骨导语音幅度谱特征,并对提取的语音特征进行数据预处理以符合神经网络的输入需求,其中为了缩小提取的幅度谱特征的动态范围,采用对数幅度谱特征:
(1)语音数据是由同一个人同时佩戴AC与BC麦克风设备录制的AC与BC语音对,AC语音表示为A,BC语音表示为B,利用短时傅里叶变换分别将AC与BC语音时域信号y(A)、y(B)分别变换到时频域,具体步骤为:
①对语音时域信号y(A)、y(B)分别进行分帧加窗处理,窗函数为汉明窗,帧长为N,N取为2的整数次幂,帧间移动长度为H;
②对分帧后的语音帧进行K点离散傅里叶变换,获得语音的时频谱YA(k,t)、YB(k,t),计算公式如下:
其中,k=0,1,…,K-1表示离散频率点,K表示离散傅里叶变换时的频率点数,K=N,t=0,1,…,T-1表示帧序号,T为分帧的总帧数,h(n)为汉明窗函数;
(2)对频谱Y(k,t)取绝对值,计算得到幅度谱MA、MB,计算公式如下:
M(k,t)=|Y(k,t)|
(3)对幅度谱M(k,t)取以e为底的对数(ln),得到对数幅度谱LA、LB,计算公式如下:
L(k,t)=lnM(k,t)
(4)采用稀疏非负矩阵分解在纯净气导语音对数幅度谱特征矩阵上计算出气导语音字典D。
3.根据权利要求2所述的方法,其特征在于编码器的预训练中,预训练编码器网络由三层组成:线性层Linear、长短时记忆递归网络层LSTM和非负稀疏长短时记忆递归神经网络层NS-LSTM,训练时,以骨导语音归一化后的对数幅度谱特征作为训练输入,以气导语音的对数幅度谱特征作为训练目标,采用时间反向传播算法训练神经网络模型,并存储训练好的神经网络参数,NS-LSTM神经网络单元结构以及编码器网络预训练过程如下:
(1)非负稀疏长短时记忆神经网络模型是长短时记忆模型LSTM的一种变形,通过引入非负、稀疏的控制变量,能够产生满足约束条件的输出向量,其组成单元用以下式子表示:
ft=σ(WfxXt+Wfhht-1+bf)
it=σ(WixXt+Wihht-1+bi)
gt=σ(WgxXt+Wghht-1+bg)
ot=σ(WoxXt+Wohht-1+bo)
其中,φ(x)=tanh(x),ψ(x)=ReLU(x)=max(0,x)为非负约束,sh(D,u)(x)=D(tanh(x+u)+tanh(x-u))为稀疏激活函数;
(2)丢弃正则化技术:设置丢弃比率为p,丢弃正则化公式为:
其中,表示第l层的第j个神经元的存在概率,Bernoulli(p)指概率为p的伯努利分布,该分布是以概率p出现1,以概率1-p出现0,是第l层的第j个神经元的输出值,乘以后的值,即该值等于或0,是网络权值,是偏置,f表示激活单元,是经过激活函数的神经元输出;
(3)编码器神经网络的训练:训练损失目标函数是网络输出值与对应AC语音对数幅度谱的均方差:
其中,c为字典系数,M=[D,I,-I]为气导语音字典与补偿字典的集合,D为气导语音字典,I为对角元素为1其余元素为0的对角矩阵,在字典元素线性组合中起到补偿和提升表示精度的作用;训练过程中b%的训练数据作为验证集数据,训练过程中最小化损失函数,网络随机初始权值[-0.1,0.1],具体采用的是随机梯度下降算法的一种变形均方根传播算法,学习率初始值设为lr,当验证集损失函数值未下降时,学习率乘以因子ratio,动量为momentum,当验证集损失函数值连续i个训练回合未下降时停止训练,保存验证集的损失函数值最小的神经网络模型参数,记为S′。
4.根据权利要求3所述的方法,其特征在于编解码器联合训练中,解码器包含两层网络结构,分别是递归网络层LSTM和线性层Linear,ai表示基于局部注意力机制的解码器网络输入,其公式为:
ej是编码器第j个输出,N(i)表示编码器第i个输出的邻域输出,ωij表示这些邻近输入的加权组合系数,其计算公式为:
scoreij是编码器第j个输出ej对解码器第i个输入ai的加权分数,经过归一化后得到线性组合的权重,Wa是一个线性层的参数矩阵,解码器第i-1时刻的输出经过线性层与ej做内积,用于计算加权分数(scoreij);
解码器的作用是在经过字典编码的合成语音基础上,通过训练获得更接近真实的语音信号;解码器采用与编码器联合训练的方式进行优化,按照逐个时间段优化的方式,以真实语音信号的对数幅度谱特征构造均方误差损失函数,经过梯度下降获得最优的网络参数,并存储在本地,记为S。
5.根据权利要求4所述的方法,其特征在于提取待增强的骨导语音特征,并根据获得的对齐后的对数幅度谱LQB的数据统计特征,包括均值和方差进行数据归一化:
首先,对待增强BC语音数据BE,采用傅里叶变换将语音时域波形变换到时频域提取待增强的BC语音特征的过程在特征提取基础上对相位提取,即在得到时域语音频谱后,不仅计算幅度谱,还要计算相位,根据时频谱计算得到其幅度谱和相位计算公式为:
其中,atan2(x)为四象限反正切函数,imag(x)与real(x)分别代表时频谱的虚部与实部,根据幅度谱计算得到对数幅度谱然后,根据训练阶段得到的BC语音对数幅度谱的均值和方差进行归一化:
6.根据权利要求5所述的方法,其特征在于增强时,利用第一阶段训练好的编解码器神经网络对提取的骨导语音特征进行转化,再对神经网络的输出进行反归一化和特征逆变换,最终得到增强后的时域语音:
首先,将归一化后的对数幅度谱输入到训练好的编解码神经网络模型S中,计算得到网络输出,即增强后的特征
其次,将增强后的特征进行反归一化以及逆变换,最终得到增强后的时域语音,步骤如下:
(1)根据训练阶段AC语音对数幅度谱的均值和方差将双向门递归神经网络得到的输出进行反归一化,得到对数幅度谱计算公式如下:
(2)将对数幅度谱进行指数运算,得到幅度谱计算公式如下:
(3)利用幅度谱以及相位信息计算得到时频谱计算公式如下:
(4)利用傅里叶逆变换以及语音分帧后去重叠加公式,将频谱转化到时域,最终得到增强后的时域语音信号y(BE)。
现在,一起体验智慧芽的产品和服务
自动注册,无需人工审核,即可立即开始查询专利
立即注册
澳门正版图库

AI助手