买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:浙江大学
摘要:本发明公开了一种基于双向异步序列的对话生成方法,包括:S1获取对话文本,识别对话文本中的关键词,并生成所述关键词对应的词向量;S2基于S1中获得的词向量,生成对话文本的语句向量;S3将S2中获得的对话文本的语句向量,与知识问答库中样本问句的语句向量计算相似度,生成包括多个候选答案的答案集以及候选答案对应的词向量;S4基于S3中生成的答案集以及对应的词向量,通过双向异步序列算法,获得初始回答文本;S5对初始回答文本进行修正,输出最终的回答文本。本发明还提供了一种实施上述方法的系统。通过本发明的方法生成的回答文本附带有更多拓展内容,通过修正算法避免了重复用词的问题,进一步提高了回答文本的质量。
主权项:1.一种基于双向异步序列的对话生成方法,其特征在于,包括:S1获取对话文本,识别对话文本中的关键词,并生成所述关键词对应的词向量;S2基于S1中获得的词向量,生成对话文本的语句向量,其具体为:S2.1将关键词的词向量转换为词向量矩阵;S2.2通过Bi-LSTM网络生成每个关键词对应的隐藏向量;S2.3将所有关键词的隐藏向量链接起来,获得对应对话文本的语句向量;S3将S2中获得的对话文本的语句向量,与知识问答库中样本问句的语句向量计算相似度,生成包括多个候选答案的答案集以及候选答案对应的词向量,所述知识问答库是输入样本问句与对应的候选答案三元组,通过双层Bi-LSTM网络进行训练获得;S4基于S3获得的答案集中候选答案以及对应的词向量,通过双向异步序列算法,获得初始回答文本,所述双向异步序列算法是基于反向解码器与正向解码器对答案集中候选答案以及对应的词向量进行解码,具体为:S4.1从所述答案集中选取相似度最高的候选答案作为起始词;S4.2基于起始词与对应的词向量,通过反向解码器倒序生成前半部回答文本;S4.3对前半部回答文本进行翻转处理后,识别获得前半部回答文本的语句向量;S4.4基于S4.3获得的语句向量,再次与知识问答库中样本问句的语句向量计算相似度,获得对应的答案集;S4.5基于前半部回答文本的语义信息与S4.4获得的答案集中候选答案的词向量,通过正向解码器生成后半部回答文本;S4.6将前半部回答文本与后半部回答文本的语句向量链接,获得初始回答文本;S5对初始回答文本进行修正,输出最终的回答文本,对初始回答文本进行修正是通过检测单词或\和短句的词向量出现次数,经过惩罚权重计算对文本进行修正,其具体为: 其中,N为检测到的重复区间的长度,st为时刻t对应的生成的回复,xi为已生成的前置词向量,pst|xi为st在已生成的xi条件下的生成概率,对重复出现3次以上的单词或\和短句进行输出裁剪处理。
全文数据:
权利要求:
百度查询: 浙江大学 一种基于双向异步序列的对话生成方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。