澳门正版图库-免费完整资料

首页/ 专利查询/ 2023-04-13公布专利

WO2023059717A1 PCT指定期内 从语音中估计年龄

理赔主张的是: 1.一种计算机实现的方法,包括: 由计算机获取针对多个训练说话人的多个训练音频信号提取的多个训练说话人嵌入; 由计算机训练机器学习架构的年龄估计器以通过使用多个说话者标签将年龄估计器应用于多个训练说话者的多个训练说话者嵌入来生成估计年龄和估计概率分布, 每个说话人标签指示相应训练说话人的实际年龄; 计算机获取入站说话人的入站音频信号的入站说话人嵌入; 通过在入站说话人嵌入上应用年龄估计器的计算机生成入站说话人的入站概率分布; 通过计算机将年龄估计器应用于入站说话人嵌入,生成入站说话人的估计年龄和基于估计的概率分布的置信度分数。 2.根据权利要求1所述的方法,其中训练年龄估计器包括: 对于每个训练信号,由计算机基于将年龄估计器应用于训练信号的训练嵌入来生成预测年龄; 计算机根据说话人标签,根据训练信号的训练说话人的预测年龄与实际年龄的差值,确定损失。 3.根据权利要求2所述的方法,还包括由所述计算机基于所述损失来更新所述年龄估计器的一个或多个权重。 4.根据权利要求2所述的方法,其中生成预测年龄包括由计算机针对训练信号的预测年龄生成预测分布,其中预测年龄是预测分布的均值; 其中确定差异包括由计算机确定预测分布和概率分布之间的距离,其中计算机基于该距离更新概率分布。 35 5.根据权利要求1所述的方法,还包括响应于确定预测分布与概率分布之间的差异满足训练阈值,由计算机确定训练年龄估计器。 6.根据权利要求1所述的方法,还包括由计算机根据入站分布和概率分布之间的差异来更新年龄估计器的一个或多个权重以更新年龄估计器的训练。 7.根据权利要求1所述的方法,还包括由计算机从数据库接收训练说话人的说话人标签的实际年龄。 8.根据权利要求1所述的方法,其中获得训练音频信号的训练说话人嵌入包括: 由计算机将机器学习架构的嵌入提取器应用于训练音频信号以提取多个声学特征用于训练音频信号; 计算机将嵌入提取器应用于多个声学特征,以提取训练音频信号的训练说话人嵌入。 9.根据权利要求1所述的方法,还包括: 响应于计算机确定入站说话人嵌入满足与登记的说话人嵌入的说话人匹配阈值距离,并且估计的年龄在年龄匹配阈值距离内 entranced age of the enrolled speaker:计算机响应计算机,将入站演讲者识别为已注册演讲者。 10.根据权利要求1所述的方法,还包括由计算机从管理员设备的图形用户界面接收概率分布的一个或多个参数,其中计算机基于一个或多个参数确定概率分布。 11. 一种系统,包括: 计算机,包括处理器,配置为: 获得为多个训练说话人的多个训练音频信号提取的多个训练说话人嵌入; 36 通过使用多个说话人标签将年龄估计器应用于多个训练说话人的多个训练说话人嵌入来训练机器学习架构的年龄估计器以生成估计年龄和估计概率分布,每个说话人标签指示一个相应培训演讲者的实际年龄; 获取入站说话人的入站音频信号的入站说话人嵌入; 通过在入站说话人嵌入上应用年龄估计器,生成入站说话人的入站概率分布; 并通过在入站说话人嵌入上应用年龄估计器,生成入站说话人的估计年龄和基于估计的概率分布的置信度分数。 12.根据权利要求12所述的系统,其中,当训练年龄估计器时,计算机还被配置为: 对于每个训练信号,基于将年龄估计器应用于训练信号的训练嵌入来生成预测年龄; 根据说话人标签,根据训练信号的训练说话人的预测年龄与实际年龄的差值确定损失。 13.根据权利要求12所述的系统,其中所述计算机进一步经配置以基于所述损失更新所述年龄估计器的一个或多个权重。 14.根据权利要求12所述的系统,其中,在生成预测年龄时,所述计算机还被配置为针对训练信号的预测年龄生成预测分布,其中,预测年龄是预测分布的均值; 其中,当确定差异时,计算机还被配置为确定预测分布与概率分布之间的距离,其中计算机基于该距离更新概率分布。 15.根据权利要求11所述的系统,其中所述计算机还被配置为响应于所述计算机确定预测分布与所述概率分布之间的差异满足训练阈值而确定所述年龄估计器被训练。 16.根据权利要求11所述的系统,其中所述计算机还被配置为基于入站分布和概率分布之间的差异来更新年龄估计器的一个或多个权重以更新年龄估计器的训练。 17.根据权利要求11所述的系统,所述计算机还被配置为从数据库接收训练说话者的说话者标签的实际年龄。 18.根据权利要求11所述的系统,其中,当获得训练音频信号的训练说话人嵌入时,所述计算机还被配置为: 将机器学习架构的嵌入提取器应用于训练音频信号以提取多个声学训练音频信号的特征; 并将嵌入提取器应用于多个声学特征以提取训练音频信号的训练说话人嵌入。 19.根据权利要求11所述的系统,其中所述计算机还被配置为: 响应于所述计算机确定入站说话人嵌入满足与登记的说话人嵌入的说话人匹配阈值距离,并且估计的年龄处于年龄- match threshold distance from an enrolled age of the enrolled speaker:将入站演讲者识别为已注册演讲者。 20.根据权利要求11所述的系统,其中所述计算机进一步配置成从管理员设备的图形用户界面接收概率分布的一个或多个参数,其中所述计算机基于所述一个或多个参数确定概率分布。

现在，一起体验智慧芽的产品和服务

自动注册，无需人工审核，即可立即开始查询专利

立即注册

400-694-4481