恭喜福州大学陈羽中获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜福州大学申请的专利基于细粒度局部信息增强的对话结构感知对话方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114490991B 。
龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210109486.7,技术领域涉及:G06F16/3329;该发明授权基于细粒度局部信息增强的对话结构感知对话方法及系统是由陈羽中;陈泽林设计研发完成,并于2022-01-28向国家知识产权局提交的专利申请。
本基于细粒度局部信息增强的对话结构感知对话方法及系统在说明书摘要公布了:本发明涉及一种基于细粒度局部信息增强的对话结构感知对话方法及系统,该方法包括以下步骤:步骤A:获取特定场景的多轮对话文本,并标注每个多轮对话回复所属的类别,构建带正负类别标签的训练集D;步骤B:使用训练集D训练细粒度局部信息增强的对话结构感知深度学习网络模型SAFL,用于选择给定多轮对话上下文对应的回复;步骤C:将多轮对话上下文与回复集输入到训练后的深度学习网络模型SAFL中,得到对应多轮对话上下文最合适的回复。该方法及系统有利于提高提高多轮对话回复选择的精确度。
本发明授权基于细粒度局部信息增强的对话结构感知对话方法及系统在权利要求书中公布了:1.一种基于细粒度局部信息增强的对话结构感知对话方法,其特征在于,包括以下步骤:步骤A:获取特定场景的多轮对话文本,并标注每个多轮对话回复所属的类别,构建带正负类别标签的训练集D;步骤B:使用训练集D训练细粒度局部信息增强的对话结构感知深度学习网络模型SAFL,用于选择给定多轮对话上下文对应的回复;步骤C:将多轮对话上下文与回复集输入到训练后的深度学习网络模型SAFL中,得到对应多轮对话上下文最合适的回复;所述步骤B具体包括以下步骤:步骤B1:将训练集D的每个三元组形式的训练样本作为SAFL模型的输入,所述三元组形式的训练样本包括多轮对话上下文、回复、标签;SAFL模型使用预训练语言模型BERT作为基础,利用BERT的多层注意力机制学习到结合语境的上下文语义表示;同时SAFL模型采用多任务学习方式挖掘BERT的语义理解能力,主任务是多轮对话回复选择任务,辅助任务是随机滑动窗口回复预测任务以及对话结构感知任务;步骤B2:在辅助任务部分,SAFL模型导出预训练语言模型BERT,利用随机滑动窗口回复预测任务以及对话结构感知任务优化预训练语言模型;随机滑动窗口回复预测任务在多轮对话上下文中采样不同位置、大小的窗口数据,使用预训练语言模型编码对话窗口,加强预训练语言模型对于对话局部信息的理解能力;对话结构感知任务根据对话人说话的先后顺序构造图结构,并使用GCN进行编码,促使预训练语言模型学习正确的对话结构所具备的特征,让预训练语言模型从另一个角度理解对话数据;步骤B3:在主任务,即多轮对话回复选择任务中,SAFL模型采用重点局部信息蒸馏模块从预训练语言模型的输出中提取出细粒度的局部语义信息,通过门控机制对全局信息和局部信息进行进一步的融合筛选,并将筛选得到的融合特征与多粒度局部信息进行融合,输入到分类层中进行多轮对话上下文与回复之间的合理性分数的计算,评估当前回复是否对应给定的多轮对话上下文;最后根据目标损失函数,利用反向传播方法计算深度学习网络模型SAFL中的各参数的梯度,并利用随机梯度下降方法更新参数;步骤B4:当深度学习网络模型SAFL产生的损失值迭代变化小于设定阈值或达到最大迭代次数,终止深度学习网络模型SAFL的训练;所述步骤B1具体包括以下步骤:步骤B11:将u代表上下文中的话语,r代表回复,m代表着话语的个数,将SAFL的输入拼接成如下长序列形式:x={[CLS],u1,[EOT],u2,[EOT],…,[EOT],um,[SEP],r,[SEP]}其中,x为拼接得到的长文本;[CLS]和[SEP]为分隔符,[EOT]为SAFL用于学习局部信息的特殊标记;步骤B12:通过预训练语言模型BERT的词典与模型的嵌入层,将x分别映射为词嵌入表示、位置嵌入表示与段落嵌入表示;步骤B13:将每个词的词嵌入表示、位置嵌入表示与段落嵌入表示相加,得到融合后的嵌入表示,并使用BERT的多层Transformer网络进行编码,从而获取到序列的高层语义特征表示E;所述步骤B2具体包括以下步骤:步骤B21:在随机滑动窗口回复预测任务,即模型的第一个辅助任务中,SAFL将滑动窗口的大小、位置都设为随机,采样落在滑动窗口内的局部对话上下文,并在局部对话上下文的每一个话语后面插入特殊标签[EOT],如下列公式所示: 其中,x'是子任务的输入,与主任务不同,x'只保留窗口内部的信息,其他的信息由[PAD]替代,w代表当前窗口的大小,m代表完整的对话上下文中的话语个数,κ是一个超参数,代表最小窗口的大小;步骤B22:将所述预训练语言模型BERT导出,利用它对落在滑动窗口内的局部对话上下文数据进行编码,让BERT学习到不同质量的对话数据,增强预训练语言模型的语义理解能力,公式如下:E'=BERTx′步骤B23:SAFL将距离窗口回复最近的[EOT]表示E[EOT]输入到分类层之中计算多轮对话上下文与回复之间的合理性分数,公式如下:gwc,wr=σWwTE[EOT]+bw其中,wc,wr表示窗口数据中的上下文和回复,Ww是预测层中可训练的参数,σ·表示sigmoid激活函数;步骤B24:随机滑动窗口回复预测任务针对目标函数采用梯度下降的方式进行优化,目标函数采用交叉熵损失函数来评估当前打分与真实对话窗口标签的差异,具体公式如下: 其中D'代表窗口数据集;步骤B25:对话结构感知任务,即模型的第二个辅助任务在多轮对话上下文中采样连续的对话片段,并将其输入BERT进行编码,具体公式如下:x″={[CLS],u1,[EOT],…,ui,[EOT],…,us,[EOT]}E″=BERTx”其中输入数据中包含着s个话语以及其对应的局部语义标签,这些话语是从对话上下文中抽取出的连续对话片段,其中s为一个超参数,用于控制抽取片段的长度大小;步骤B26:SAFL将当前对话片段中的每一个话语作为一个节点,建立一个全连接的对话结构图,同时根据对话人说话的先后顺序赋予每条边不同的关系;步骤B27:SAFL模型从E”中抽取s个话语对应的语义表征,作为对话结构图中的节点表示,采用带关系的GCN进行编码,具体公式如下: 其中,R表示所有的边关系集合,N表示图中所有节点的集合,ci,r是自动学习的边关系系数,Wr、Wm是模型需要学习的参数;得到带关系的GCN模块输出后,再采用非关系GCN进一步学习对话结构信息,具体公式如下: 其中,Wnr、Wnm是第二层GCN中需要学习的参数;步骤B28:得到对话结构模块的输出后,SAFL模型将所有输出进行拼接,获得整体的对话结构表示,并使用线性层计算分数: gws=σWTEs-ensemble+b步骤B29:对话结构感知任务针对目标函数采用梯度下降的方式进行优化,目标函数采用交叉熵损失函数来评估当前对话片段结构是否合理,具体公式如下: 其中,ws表示着当前对话片段数据,D”表示对话片段数据集;所述步骤B3具体包括以下步骤:步骤B31:重点局部信息蒸馏模块在对话上下文的每一句话后面都埋设了特殊标签[EOT],如下列公式所示:x={[CLS],u1,[EOT],u2,[EOT],…,[EOT],um,[SEP],r,[SEP]}在预训练语言模型深度注意力机制与位置嵌入的共同作用下,每一个位置的特殊标签[EOT]都学习到在各自特定位置上与周边文本的交互信息;同时,随机滑动窗口回复预测任务优化的过程中使用窗口之中的最后一个[EOT]标签建立分类任务,逐步学习到鉴别窗口回复能力;[EOT]这个特殊的标签的嵌入表示逐渐学习到一个正确句子的表示,且更加关注局部区域的文本;步骤B32:在特征融合阶段,重点局部信息蒸馏模块从预训练语言模型的输出之中选取距离回复最近的n个局部语义表征作为多粒度的局部信息,同时使用拼接的方式将局部信息聚合成一个整体,具体公式如下: 其中,l表示距离回复最近的条目,n是一个超参数,用于代表取出[EOT]表征的个数;步骤B33:得到多粒度的局部信息表征后,重点局部信息蒸馏模块采用多路门控机制过滤全局语义表示中的噪声;具体的,该模块采用每一种粒度的局部语义表示去和全局语义表示做门控选择: 步骤B34:全局语义表示在经过多路门控选择后,根据不同粒度局部语义表示蒸馏得到不同粒度的混和语义表示fusionk,受门控机制的影响,每一个粒度的混和语义表示都包含了全局语义表示与当前粒度局部语义表示中最重要的部分;重点局部信息蒸馏模块进一步将由多路门控选择得到的多粒度混合语义表示与多粒度的局部语义表示进行拼接作为预测层的输入: 步骤B35:将聚合后的特征表示输入到分类层中计算当前多轮对话上下文与回复的合理性分数,公式如下:gc,r=σWTEensemble+b其中,W是可训练的参数,σ·表示sigmoid激活函数,b是当前分类层的偏置项;步骤B36:SAFL使用梯度下降的方式更新学习模型中的参数,同时针对多轮对话回复选择任务采用交叉熵作为损失函数,具体公式如下: 结合上随机滑动窗口回复预测任务以及对话结构感知任务的优化目标,SAFL最终的损失函数为:Loss=Lossmain+αLosswindow+βLossDSA其中α和β是两个超参数,分别用于控制两个辅助任务对于SAFL的影响力。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。