CN115938351A 审中 ASR语言模型的构建方法、系统、存储介质及电子设备
1.一种ASR语言模型的构建方法,其特征在于,包括:
步骤1,获取语音样本数据;
步骤2,对所述语音样本数据进行基础处理,得到样本数据;
步骤3,对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
步骤4,对所述第一样本数据进行变体替换,得到本体数据;
步骤5,对所述本体数据进行频数统计,根据统计结果生成训练样本;
步骤6,根据所述训练样本对ASR语言模型进行构建。
2.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,语音样本数据包括:开源数据、爬虫获取的数据以及商业数据。
3.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,基础处理包括:将所述语音样本数据中的全角字符转换为半角字符,通过繁简体映射表将所述语音样本数据中的繁体数据转换为简体数据。
4.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,基础处理还包括:对所述语音样本数据进行长度过滤处理,将所述语音样本数据中的阿拉伯数字转换为汉字,将所述语音样本数据中的英文统一处理,将所述语音样本数据中的标点替换为空格。
5.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,步骤3具体为:
对所述样本数据中的非法字符进行剔除,得到清洗后的第一样本数据。
6.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,步骤4具体为:
通过WFSA程序对所述第一样本数据进行变体替换,得到本体数据。
7.根据权利要求1所述的一种ASR语言模型的构建方法,其特征在于,步骤5具体为:
对所述本体数据进行频数统计,将统计结果与预设数量上限N进行比较,若所述统计结果大于所述预设数量上限N,则保留N条本体数据,将N条本体数据生成训练样本。
8.一种ASR语言模型的构建系统,其特征在于,包括:
获取模块,用于获取语音样本数据;
基础处理模块,用于对所述语音样本数据进行基础处理,得到样本数据;
清洗模块,用于对所述样本数据进行字符清洗,得到清洗后的第一样本数据;
替换模块,用于对所述第一样本数据进行变体替换,得到本体数据;
统计模块,用于对所述本体数据进行频数统计,根据统计结果生成训练样本;
构建模块,用于根据所述训练样本对ASR语言模型进行构建。
9.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至7中任一项所述的一种ASR语言模型的构建方法。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的一种ASR语言模型的构建方法。
现在,一起体验智慧芽的产品和服务
自动注册,无需人工审核,即可立即开始查询专利
立即注册
澳门正版图库

AI助手