WO2023059969A1 PCT指定期内 多语言自动语音识别的无监督和监督联合训练
所声称的是: 1. 一种用于训练多语言自动语音识别(ASR)模型(200)的无监督和监督联合训练(JUST)框架(300),JUST框架(300)包括:特征编码器(311),配置为:接收,作为 输入,对应于语音话语(302、304)的音频特征(110); 并在多个时间步长中的每一个处生成潜在语音表示(212); 量化器(310)被配置为:接收由特征编码器(311)在多个时间步长中的每个时间步长生成的潜在语音表示(212)作为输入; 并且在多个时间步长的每一个处,为由特征编码器(311)生成的对应的潜在语音表示(212)生成目标量化向量令牌(312)和目标令牌索引(314),其中目标令牌 索引(314)将相应的潜在语音表示(212)映射到存储在码本(315)中的目标量化矢量标记(312); 对比网络(320),被配置为:在屏蔽潜在语音表示(212)的子集之后,接收由特征编码器(311)在多个时间步长中的每一个生成的潜在语音表示(212)作为输入; 在多个时间步长的每一个,为对应的未掩蔽或掩蔽的潜在语音表示(212u,212m)生成对比上下文向量(322); 并且在多个时间步长的每一个,基于相应的对比上下文向量(322)和由量化器(310)为 相应的潜在语音表示(212); 屏蔽语言建模(MLM)模块(330)被配置为: 23 接收由对比网络(320)在多个时间步长中的每一个生成的对比上下文向量(322)作为输入; 在多个时间步长的每一个处生成高级上下文向量(334); 对于每个高级上下文向量(334),学习使用基于量化器生成的目标标记索引(314)的交叉熵损失(355b)在相应的时间步预测目标标记索引(314)( 310)在相应的时间步; 以及解码器(340),被配置为:接收由MLM模块(330)在多个时间步长的每一个生成的高级上下文向量(334)作为输入; 并预测话语(302、304)的语音识别假设(342),其中多语言 ASR 模型(200)在以下方面进行训练:基于对比自监督损失(355a)的无监督损失(355)和交叉 熵 (355b); 以及基于预测的语音识别假设(342)和话语(302、304)的地面实况转录(306)的监督损失(365)。 2.如权利要求1所述的JUST框架(300),其中特征编码器(311)包括两个卷积神经网络(CNN)块。 3.如权利要求1或2所述的JUST框架(300),其中掩蔽潜在语音表示(211)的子集包括用相应的随机替换潜在语音表示(212)的子集中的每个潜在语音表示(212) 向量。 4. 如权利要求1-3中任一项所述的JUST框架(300),其中由对比网络(320)导出的对比自监督损失(355a)进一步基于从目标量化向量令牌( 312) 存储在代码本 (315) 中,对应于来自潜在表示的掩码子集 (212m) 的掩码潜在表示 (212m)。 5.如权利要求1-4中任一项所述的JUST框架(300),其中所述无监督损失(355)进一步基于与码本(315)相关联的基于熵的分集损失。 6.如权利要求1-5中任一项所述的JUST框架(300),其中,多语言ASR模型(200)在以多种不同语言说出的训练话语(302、304)上被训练。 7.如权利要求1-6中任一项所述的JUST框架(300),其中训练多语言ASR模型(200)包括训练没有预先预训练的多语言ASR模型(200)。 8.如权利要求1-6中任一项所述的JUST框架(300),其中训练多语言ASR模型(200)包括从预训练检查点微调多语言ASR模型(200)。 9.根据权利要求1-8中任一项所述的JUST框架(300),其中训练多语言ASR模型(200)包括在无监督损失(355)和监督损失(365)上联合训练多语言ASR模型(200)。 10.如权利要求1-9中任一项所述的JUST框架(300),其中所述监督损失(365)包括递归神经网络-转换器(RNN-T)损失。 11.一种计算机实现的方法(400),当由数据处理硬件(510)执行时,使数据处理硬件(510)执行包括以下操作的操作:接收对应于语音发音(302、304)的音频特征(110); 在多个时间步长中的每一个,基于音频特征(110)生成潜在语音表示(212); 在多个时间步长的每一个处,为相应的潜在语音表示(212)生成目标量化矢量标记(312)和目标标记索引(314),其中目标标记索引映射(314)相应的潜在语音 对存储在码本(315)中的目标量化矢量令牌(312)的表示(212); 在多个时间步长的每一个,为相应的未掩蔽或掩蔽的潜在语音表示(212u,212m)生成对比上下文向量(322); 在多个时间步长的每一个,基于对应的对比上下文向量(322)和对应的目标量化向量标记(312)推导对比自监督损失(355a); 在多个时间步长的每一个,基于对比上下文向量(322)生成高级上下文向量(334); 对于每个高级上下文向量(334),学习使用基于目标标记索引(314)的交叉熵损失(355b)在相应的时间步预测目标标记索引(314); 基于高级上下文向量(334)预测话语(302、304)的语音识别假设(342); 使用基于对比自监督损失(355a)和交叉熵损失(355b)的无监督损失(355)和基于 预测的语音识别假设(342)和话语(302、304)的真实转录(306)。 12.根据权利要求11所述的计算机实现的方法(400),其中生成潜在语音表示(212)包括由特征编码器(311)在多个时间步长的每一个处生成潜在语音表示(212), 特征编码器(311)包括两个卷积神经网络(CNN)块。 26 13. 根据权利要求11或12所述的计算机实现的方法(400),其中,所述操作还包括通过随机替换潜在语音表示(212)子集中的每个潜在语音表示(212)来掩蔽潜在语音表示(212)的子集( 212) 具有相应的随机向量。 14.根据权利要求11-13中任一项所述的计算机实现的方法(400),其中对比自监督损失(355a)进一步基于从存储在 对应于来自潜在表示 (211m) 的掩码子集的掩码潜在表示 (211m) 的码本 (315)。 15.根据权利要求11-14中任一项所述的计算机实现的方法(400),其中所述无监督损失(355)进一步基于与码本(315)相关联的基于熵的分集损失。 16.如权利要求11-15中任一项所述的计算机实现的方法(400),其中,多语言ASR模型(200)在以多种不同语言说出的训练话语(302、304)上被训练。 17.根据权利要求11-16中任一项所述的计算机实现的方法(400),其中训练多语言ASR模型(200)包括在没有事先预训练的情况下训练多语言ASR模型(200)。 18.根据权利要求11-16中任一项所述的计算机实现的方法(400),其中训练多语言ASR模型(200)包括从预训练检查点微调多语言ASR模型(200)。 27 19.根据权利要求11-18中任一项所述的计算机实现的方法(400),其中训练多语言ASR模型(200)包括在无监督损失(355)和监督损失(365)上联合训练多语言ASR模型(200) ). 20.如权利要求11-19中任一项所述的计算机实现的方法(400),其中所述监督损失(365)包括递归神经网络-转换器(RNN-T)损失。 28
现在,一起体验智慧芽的产品和服务
自动注册,无需人工审核,即可立即开始查询专利
立即注册
澳门正版图库

AI助手