首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于对话机器人的音意理解模型的训练方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京硅基智能科技有限公司

摘要:本发明涉及音意理解领域,公开了一种用于对话机器人的音意理解模型的训练方法及系统,解决了目前音意理解模型训练时语音标注数据不足、模型泛化性能不好的问题,其技术方案要点是根据指定意图编写出训练词句;对所述训练词句的文本进行数据增强,生成若干种与所述训练词句意图相同的同义词句文本数据;对所述同义词句文本数据进行语音合成,得到相应的训练语音数据;使用所述训练语音数据训练基于深度神经网络的音意理解模型,达到了减少人工标注语音数据的工作量,提高意图识别准确率和泛化性能的效果。

主权项:1.一种用于对话机器人的音意理解模型的训练方法,其特征是:包括以下步骤:S1、根据指定意图编写出训练词句;S2、对所述训练词句的文本进行数据增强,生成若干种与所述训练词句意图相同的同义词句文本数据;S3、对所述同义词句文本数据进行语音合成,得到相应的训练语音数据;S4、使用所述训练语音数据训练基于深度神经网络的音意理解模型;其中:S2中对所述训练词句的文本进行数据增强的方法包括:W1、对所述训练词句中的字词进行同义词替换;W2、对所述训练词句中的字词进行随机插入和或随机删除;W3、对所述训练词句中的字词顺序进行随机打乱;W4、将所述训练词句翻译成另一种语言,再翻译回所述训练词句的原语言;W5、使用预训练模型根据所述训练词句批量生成若干相似词句;所述W1中进行同义词替换的步骤如下:W1.1、加载预先训练好的BERT语言模型;W1.2、对每个所述训练词句中的字词用BERT模型获取相应词向量;W1.3、根据词向量计算所述训练词句中的字词与词汇表中所有字词的词向量的余弦相似度;W1.4、余弦相似度大于设定阈值的字词当作同义词返回;W1.5、用同义词替换所述训练词句中对应位置的字词,生成若干个同义词句文本;S3中对所述同义词句文本数据进行语音合成,得到相应的训练语音数据的步骤中包括以下子步骤:S3.1、把所述同义词句文本数据转为带音调的拼音音节;S3.2、把所述同义词句文本数据包含的每个词转换表示为一个整数;S3.3、由词向量模型将表示为整数的词构成词嵌入矩阵;S3.4、将所述词嵌入矩阵输入训练好的双向LSTMSeq2seq模型生成中间表示;S3.5、通过训练好的声码器把所述中间表示转换成所述训练语音数据;S4中的音意理解模型的训练包括以下子步骤:S4.1、接收包含意图标签的训练语音数据;S4.2、使用卷积神经网络提取所述训练语音数据的语音特征;S4.3、使用循环神经网络提取所述训练语音数据的音素、字素特征;S4.4、将提取到的语音特征和音素、字素特征导入循环神经网络中进行音意理解模型训练;S4.5、针对输入的所述训练语音数据进行模型参数的调整,完成对音意理解模型的训练。

全文数据:

权利要求:

百度查询: 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。