Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜福州大学陈羽中获国家专利权

恭喜福州大学陈羽中获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜福州大学申请的专利基于预训练语言模型的局部信息感知对话方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114443827B

龙图腾网通过国家知识产权局官网在2025-03-11发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210109478.2,技术领域涉及:G06F16/3329;该发明授权基于预训练语言模型的局部信息感知对话方法及系统是由陈羽中;陈泽林设计研发完成,并于2022-01-28向国家知识产权局提交的专利申请。

基于预训练语言模型的局部信息感知对话方法及系统在说明书摘要公布了:本发明涉及一种基于预训练语言模型的局部信息感知对话方法及系统,该方法包括以下步骤:步骤A:收集特定场景的多轮对话文本,并标注每个多轮对话回复所属的类别,构建带正负类别标签的训练集D;步骤B:使用训练集D训练基于预训练语言模型的局部信息感知深度学习网络模型PLIP,用于选择给定多轮对话上下文对应的回复;步骤C:将多轮对话上下文与回复集输入到训练后的局部信息感知深度学习网络模型PLIP中,得到对应多轮对话上下文最合适的回复。该方法及系统能够有效提高多轮对话回复选择的精确度。

本发明授权基于预训练语言模型的局部信息感知对话方法及系统在权利要求书中公布了:1.一种基于预训练语言模型的局部信息感知对话方法,其特征在于,包括以下步骤:步骤A:收集特定场景的多轮对话文本,并标注每个多轮对话回复所属的类别,构建带正负类别标签的训练集D;步骤B:使用训练集D训练基于预训练语言模型的局部信息感知深度学习网络模型PLIP,用于选择给定多轮对话上下文对应的回复;步骤C:将多轮对话上下文与回复集输入到训练后的局部信息感知深度学习网络模型PLIP中,得到对应多轮对话上下文最合适的回复;所述步骤B具体包括以下步骤:步骤B1:将训练集D的每个样本,以三元组c,r,y的形式输入深度学习网络模型,其中c={u1,u2,...,um}表示包含m个话语的对话上下文,对上下文中的第t个话语有其中lt为第t个话语中词的个数,r为候选回复,lr为回复中词的个数,y∈{0,1}为样本标签,y=1表示候选回复是当前上下文的合理回复,y=0则表示不合理;其中,深度学习网络模型PLIP在编码计算三元组后输出能够反映上下文和回复相关程度的评估分数,深度学习网络模型利用预训练语言模型的多层注意力机制学习到结合语境的上下文语义表示,同时采用多任务学习策略,在优化主任务即多轮对话回复选择任务,促进表征向量理解全局信息,学习上下文和回复相关程度的同时,在辅助任务中加强预训练语言模型对多轮对话的局部上下文的学习,充分挖掘预训练语言模型的语义理解能力;步骤B2:在辅助任务部分,深度学习网络模型PLIP使用随机滑动窗口回复预测任务进一步加强预训练语言模型对于多轮对话的局部上下文的理解能力;其中,随机滑动窗口回复预测任务在多轮对话上下文中采样不同起始位置的对话上下文数据,得到对话片段,使用预训练语言模型编码对话片段,并预测窗口的回复,让预训练语言模型充分学习局部上下文的语义信息;步骤B3:在多轮对话回复选择任务中,深度学习网络模型PLIP采用局部信息感知模块促进预训练语言模型生成局部语义信息,同时融合全局信息与局部语义信息,计算多轮对话上下文与回复之间的合理性分数,评估当前回复是否对应给定的多轮对话上下文,最后根据目标损失函数,利用反向传播方法计算深度学习网络模型中各参数的梯度,并利用随机梯度下降方法更新参数;步骤B4:当深度学习网络模型PLIP产生的损失值迭代变化小于设定阈值或者达到最大迭代次数,终止深度学习网络模型的训练;所述步骤B1具体包括以下步骤:步骤B11:将对话上下文中的话语与回复进行拼接,得到深度学习网络模型的输入x;x={[CLS],u1,[EOT],u2,[EOT],…,[EOT],um,[SEP],r,[SEP]}其中,x为拼接得到的长文本,[SEP]为分隔符,[CLS]为深度学习网络模型用于学习全局特征的标记,[EOT]为深度学习网络模型用于学习局部信息的特殊标记;步骤B12:通过预训练语言模型的词典,将x映射为数字序列的形式,其中每个数字即为一个词在词表中的id,并将id序列输入到预训练语言模型内部的嵌入层中,根据初始化的三种嵌入矩阵,将id序列映射为词嵌入表示、位置嵌入表示、段落嵌入表示;X=Embeddingwordx+Embeddingposxpos+Embeddingtypextype其中,Embeddingword表示词嵌入表示的映射方式,能够将输入的序列根据词表映射成词向量,Embeddingpos表示位置嵌入表示的映射方式,能够根据每一个词的位置映射到对应的位置嵌入矩阵,Embeddingtype表示段落嵌入表示的映射方式,能够将上下文和回复映射到不同的向量空间中,得到三种词向量之后将三者相加,得到词向量l为x中词的数量,[CLS]、[SEP]、[EOT]均视作一个词;步骤B13:将每个词的词嵌入表示、句子表示、位置表示相加,得到融合后的嵌入表示,并使用多层的Transformer网络进行编码,从而获取到序列的高层语义特征表示;多层Transformer网络由多个Transformer编码块堆叠而成;每个Transformer编码块包括多头自注意力机制和前向反馈层两个子层,每个子层后面都设有残差连接和归一化层;X首先被映射为三种向量即查询向量Q、键向量K、值向量V,计算公式如下:Q=XWQ+bQK=XWK+bKV=XWV+bV其中,WQ、WK、WV、bQ、bK、bV表示训练参数;步骤B14:将Q、K、V向量送入多头自注意力机制中,在它们的词向量维度d上划分h个子向量,每个子向量的维度为dh,分别送入自注意力机制里训练,最后再将这h个自注意力子向量拼接起来重新得到一个d维的输出向量C;为了预防过拟合,并且让向量更加归整,加速网络收敛,对多头自注意力机制子层添加残差连接和归一化,得到向量T,计算公式如下: C=Concathead1,head2,…,headhWC+bCT=LayerNormX+C其中,headi表示第i个子向量的自注意力分数,WC,bC表示训练参数,Concat表示拼接操作,LayerNorm为层归一化变换;步骤B15:将向量T送入全连接的前向反馈子层,该层对T进行两个线性变换,从而得到序列的综合特征FFN,再将T和FFN进行残差连接,经过层归一化处理得到序列的最终高层特征H,计算机公式如下:FFN=WFT+bFWN+bNH=LayerNormT+FFN其中,WF、WN、bF、bN表示训练参数;所述步骤B2具体包括以下步骤:步骤B2l:在辅助任务随机滑动窗口回复预测中,模型将滑动窗口的长度、位置都设为随机,从对话上下文中采样大量的落在滑动窗口内的对话局部上下文数据,在对话局部上下文数据的每一个话语后面插入特殊标签[EOT],如下列公式所示: 其中,x′是子任务的输入,与主任务不同,x′只保留窗口内部的信息,其他的信息由[PAD]替代,i为滑动窗口的起始位置,w表示当前窗口的大小,m表示当前上下文的话语个数,κ为一个超参数,表示最小窗口的大小;步骤B22:利用预训练语言模型BERT编码对话窗口数据,公式如下:E=BERTx′步骤B23:步骤B22得到的向量E包含了对话片段经过预训练语言模型BERT编码后的所有语义表示,进一步从E中甄选出最能代表当前对话片段的语义表征来优化辅助任务;为了不破坏预训练语言模型中能够表示全局信息的[CLS]表示,模型在预训练语言模型的输出中只选择距离窗口回复最近的[EOT]表示E[EOT]来作为随机滑动窗口回复预测任务最终的表征向量;步骤B24:得到最终的表征向量E[EOT]之后,将其输入到分类层之中计算得分,计算公式如下:gwc,wr=σWwTE[EOT]+bw其中,wc、wr表示滑动窗口内的上下文和回复,Ww是预测层中可训练的参数,σ·代表sigmoid激活函数;步骤B25:随机滑动窗口回复预测任务针对目标函数采用梯度下降的方式进行优化,目标函数采用交叉熵损失函数来评估当前打分与真实对话窗口标签的差异,具体公式如下: 其中,D′表示窗口数据集;所述步骤B3具体包括以下步骤:步骤B31:局部信息感知模块在对话上下文的每一句话后面都埋设了特殊标签[EOT],如下列公式所示:x={[CLS],u1,[EOT],u2,[EOT],…,[EOT],um,[SEP],r,[SEP]}在预训练语言模型深度注意力机制与位置嵌入的共同作用下,每一个位置的特殊标签[EOT]都可以学习到在各自特定位置上与周边文本的交互信息;同时,随机滑动窗口回复预测任务优化的过程中使用窗口之中的最后一个[EOT]标签建立分类任务,逐步学习到鉴别窗口回复的能力;因此,[EOT]标签的表示逐渐学习到句子的正确表示,且更加关注局部区域的文本;步骤B32:在特征融合阶段,局部信息感知模块从预训练语言模型的输出之中选取距离回复最近的n个局部语义表征作为多粒度的局部信息,同时使用拼接的方式将局部信息聚合成一个整体,具体公式如下: 其中,l表示距离回复最近的条目,n是一个超参数,用于表示取出[EOT]表征的个数;步骤B33:局部信息感知模块将局部信息与全局信息进行整体融合,获得主任务的最终表征向量,聚合过程为: 步骤B34:将聚合后的表征向量输入到分类层中计算当前多轮对话上下文与回复之间的合理性分数,公式如下:gc,r=σWTEensemble+b其中W是可训练的参数,σ·代表sigmoid激活函数,b是当前分类层的偏置项;步骤B35:深度神经网络模型PLIP使用梯度下降的方式更新学习模型中的参数,同时针对多轮对话回复选择任务采用交叉熵作为损失函数,具体公式如下: 结合辅助任务的优化目标,模型最终的损失函数为:Loss=Lossmain+αLosswindow其中,α是一个超参数,用来控制辅助任务随机滑动窗口回复预测任务对于模型的影响力。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人福州大学,其通讯地址为:350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。