买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明提供一种基于伪标注与课程学习的语音识别数据增强方法、语音识别方法及相关设备。本发明将利用伪标注技术生成无标注语音数据的伪标注,并基于伪标注解码时的后验概率计算置信分数时,进而将该置信分数视为课程学习中衡量数据的难易程度标准,实现二者的有机结合以及伪标注本身能力的进一步挖掘,达到了语音识别数据增强的目的,并基于此,进一步达到了优化语音识别性能的目的。
主权项:1.一种基于伪标注与课程学习的语音识别数据增强方法,其特征在于,包括:步骤1:构建半监督语音识别数据集,包括已标注语音数据集和无标注语音数据集;步骤2:选取预训练语音识别模型,采用所述已标注语音数据集对所述预训练语音识别模型进行微调,得到初始语音识别模型;步骤3:采用所述初始语音识别模型对所述无标注语音数据集进行解码,生成所述无标注语音数据集的硬标签,从而得到伪标注语音数据集;并基于每个无标注语音样本的所述硬标签对应的后验概率计算得到对应的伪标注语音样本的置信分数;步骤4:将所述伪标注语音数据集和所述已标注语音数据集混合,得到混合语音数据集;步骤5:按照置信分数的大小将所述混合语音数据集切分成若干个混合语音子数据集,以供按照课程学习策略来训练所述初始语音识别模型。
全文数据:
权利要求:
百度查询: 中国人民解放军网络空间部队信息工程大学 基于伪标注与课程学习的语音识别数据增强方法、语音识别方法及相关设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。