恭喜天津大学孙鑫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜天津大学申请的专利适用于对话系统的以会话内容驱动的问题生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114780696B 。
龙图腾网通过国家知识产权局官网在2025-03-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210374446.5,技术领域涉及:G06F16/3329;该发明授权适用于对话系统的以会话内容驱动的问题生成方法是由孙鑫;王博设计研发完成,并于2022-04-11向国家知识产权局提交的专利申请。
本适用于对话系统的以会话内容驱动的问题生成方法在说明书摘要公布了:本发明公开了一种适用于对话系统的以会话内容驱动的问题生成方法,步骤一:从包含“问题+答案”的数据集中标注和提取答案部分的关键词作为命名实体;步骤二:利用约束语言模型CLM将命名实体生成带有关键词的句子的序列;步骤三:使用端到端模型框架进行问题生成,端到端框架模型包含编码器模块、解码器模块以及连接两者的中间状态向量,编码器模块通过学习输入的名实体,将其编码成一个固定大小的状态向量,继而将该向量传递给解码器模块,解码器模块再通过对这个状态向量的学习来进行输出一个问句;步骤四:利用门控自注意力机制进行对话流建模。与现有技术相比,本发明流程简单,自动生成符合预期的并且有意义的问题的效率更高。
本发明授权适用于对话系统的以会话内容驱动的问题生成方法在权利要求书中公布了:1.一种适用于对话系统的以会话内容驱动的问题生成方法,其特征在于,该方法包括以下步骤:步骤一:从包含问题+答案的数据集中标注和提取答案部分的关键词作为命名实体,以该命名实体作为输入;步骤二:利用约束语言模型CLM将作为输入的命名实体生成带有关键词的句子的序列,作为步骤三的输入;具体如下:利用CLM模型一方面在当前输入的单词同时生成位于当前输入之前的单词和位于当前输入之后的单词,另一方面在一个句子w=w1,…,wl,输入的单词ws把句子划分成两部分,包括:关于前s个单词的前项序列为ws,ws-1,ws-2,…,w1;关于后l-s+1个单词的后项序列为ws,ws+1,ws+2,…,wl,即在每个时间步中,单词嵌入的连接作为输入,生成序列是在最后一个时间步中生成的单词,将嵌入信息提供给一个共享的隐藏层,然后两个输出层分别预测正向和反向序列中的单词,从而生成一个包含单词ws的句子;步骤三:使用端到端模型框架进行问题生成,端到端框架模型包含编码器模块、解码器模块以及连接两者的中间状态向量,编码器模块通过学习输入的名实体,将其编码成一个固定大小的状态向量,继而将该向量传递给解码器模块,解码器模块再通过对这个状态向量的学习来进行输出一个问句;步骤3.1:利用编码器模块通过篇章编码和对话编码两部分来对两个来源的信息进行联合编码:利用一个双向LSTM网络模型进行篇章编码,以单词嵌入表示wi和答案位置嵌入表示ai的串联作为输入xi=[wi;ai],使用典型的BIO标记方案来表示答案范围,并将段落中的每个标记映射到相应的答案位置嵌入表示B_ANS,I_ANS,O,B_ANS表示答案的开始,I_ANS表示答案的中间部分,O表示不是答案部分;整个段落用双向LSTM编码器的隐藏状态表示其中,m表示序列长度,p表示篇章;进行对话编码,将对话历史Ci-1建模成“问题-答案”的序列Ci-1={Q1,A1,,…,Qi-1,Ai-1,}使用qa进行问题和答案的标注并连接起来形成一个token序列q,q1,…qm;a,a1,…am,其中,q表示问句标签;a表示答案句标签;使用一个token级别的双向LSTM来获得问答对的上下文的表示: 其中,i表示是轮数,表示token级别的双向LSTM得到的问答对的隐向量表示;在不同的问答轮数中采用上下文级LSTM来学习上下文的依赖关系: 为下一轮对话生成一个问题Qi,表达式如下: 其中,P是一个给定的篇章,Ci-1={Q1,A1,,…,Qi-1,Ai-1,}是对话历史,Ai是当前对话的答案;步骤3.2:利用包含注意力机制的LSTM网络模型对进行解码,所生成的一个新的序列将作为生成的问题:在每个解码时间步t,由读取单词嵌入wt和前一解码时间步t-1的隐藏状态来生成当前的隐藏状态: 在每个解码时间步,使用标准的注意力机制分别计算篇章注意力α1,…,αm和对话注意力β1,1,…,β1,m;…;βi-1,1,…,βi-1,m: 其中,Wp、Wω、Wc表示可学习的权重,分别表示对应隐藏状态的权重;αj、βi-k,j表示对应隐藏状态的归一化表示,etotal表示权重之和;最后得出上下文向量和最终的词汇分布: 其中,Wv、Wa表示可学习的权重,ct表示上下文向量表示,Pv表示最终的词汇分布,bv表示可学习的参数;步骤四:利用门控自注意力机制进行对话流建模:对答案位置嵌入进行门控自注意力机制,从整个段落中汇总与答案相关的信息以生成问题,学习turnnumber嵌入表示和chunk嵌入表示之间的潜在对齐方式: 其中,Ws、Wf、Wg表示可学习的权重,⊙表示逐元素乘法,用代替来计算篇章注意力,表示增强的篇章表示与自身相匹配的结果,表示自匹配表示法的结果,表示与原始表示法相结合的结果,表示通过门求和得到的向量表示,为自匹配增强表示;得到对话流损失函数为: 其中,λ1,λ2表示超参数,ωj∈CESHES,CES表示当前证据句,HES表示历史证据句;总的损失函数为: 其中,表示序列生成中的负对数似然损失函数,表示如下: 其中,Qi表示当前生成的问题,P表示篇章,Ai表示当前答案,Ci-1表示对话历史。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300072 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。