WO2023059969A1 PCT指定期内 多语言自动语音识别的无监督和监督联合训练
一种方法(400)包括接收音频特征(110)和基于音频特征生成潜在语音表示(212)。 该方法还包括为对应的潜在语音表示生成目标量化矢量令牌(312)和目标令牌索引(314)。 该方法还包括为对应的未掩蔽或掩蔽的潜在语音表示(212u、212m)生成对比上下文向量(322),并基于对应的对比上下文向量和对应的目标量化向量导出对比自监督损失(355a) 令牌。 该方法还包括基于对比上下文向量生成高级上下文向量(334),并学习使用基于目标标记索引的交叉熵损失(355b)来预测目标标记索引。 该方法还包括预测语音识别假设 (342) 和使用无监督损失 (355) 和监督损失 (365) 训练多语言 ASR 模型 (200)。
More
澳门正版图库 Images(6)
专利时间轴
  • 06 Sep 2022 申请日
    US/PCT/US2022/075998
    优先权
  • 06 Sep 2022 申请日
    WO/2023059969
    当前专利 申请号
  • 13 Apr 2023 公开(公告)日期
    WO2023059969A1
    申请号
专利类型/受理局 APPLICATION( WO)
[标]当前申请(专利权)人 GOOGLE LLC
当前申请(专利权)人 GOOGLE LLC

1600 Amphitheatre Parkway,Mountain View, California 94043 US

[标]原始申请(专利权)人 GOOGLE LLC
原始申请(专利权)人 GOOGLE LLC

1600 Amphitheatre Parkway,Mountain View, California 94043 US

IPC分类号
IPC(8): G10L15/00G10L15/06G10L15/16 +3
技术主题分类
应用领域分类
发明人

LI (1600 Amphitheatre Parkway)

BO (Mountain View)

BAI ( California 94043 US)

JUNWEN (1600 Amphitheatre Parkway)

ZHANG (Mountain View)

YU ( California 94043 US)

BAPNA (1600 Amphitheatre Parkway)

ANKUR (Mountain View)

SIDDHARTHA ( California 94043 US)

NIKHIL (1600 Amphitheatre Parkway)

SIM (Mountain View)

KHE CHAI ( California 94043 US)

SAINATH (1600 Amphitheatre Parkway)

TARA N (Mountain View)

现在,一起体验智慧芽的产品和服务
自动注册,无需人工审核,即可立即开始查询专利
立即注册
澳门正版图库

AI助手