买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:新疆大学
摘要:本发明涉及一种具有复杂情感表现力的语音识别模型设计方法,属于人工智能技术领域。利用表情符号表示语音体现的情感,将语音转化为对应的文字和一个符合其情感的表情符号。首先构建一个基于表情符号的具有复杂情感表现力的语音识别数据集;在此基础上,将语音的文字和情感识别作为一个整体,构建一个同时生成语音文字及其情感序列的模型,该模型以Conformer模块作为骨干模块,增加了特征提取模块和语音文本融合模块,并将表情符号的生成扩散到全部词汇的生成过程中,最后利用标签平滑正则化强化训练效果,具有参数量少、能表示语音复杂情感、准确率比现有语音识别和情感识别模型分别高了1%和3%左右等优点。
主权项:1.一种具有复杂情感表现力的语音识别模型设计方法,其特征在于:包括如下步骤:步骤1:利用emoji表情符号作为情感标签,替换离散型情感标签和效价唤醒二维连续型情感得分,设置任务目标为将语音文件转化为对应的文字以及一个符合其情感的emoji表情符号;步骤2:针对IEMOCAP数据集,将其情感标签重构为emoji表情符号标签,构建为新的具有复杂情感表示的语音文字及情感识别数据集;步骤3:构建一个统一的语音文字及其情感的序列生成模型,将其命名为STE-Conformer,包括:文字与emoji的混合生成方法,特征提取模块,Conformer模块,语音文本融合模块和标签平滑正则化;步骤4:基于步骤2构建的新的具有复杂情感表示的语音文字及情感识别数据集,对STE-Conformer模型进行训练。
全文数据:
权利要求:
百度查询: 新疆大学 具有复杂情感表现力的语音识别模型设计方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。