首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于AMR对比学习的文本摘要生成的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:云南大学

摘要:本发明提供一种基于AMR对比学习的文本摘要生成的方法,首先根据给定的文本‑摘要生成对应的AMR,并将语义联系映射为节点添加到原有概念节点序列中,对比原文与摘要对应的节点序列,获得关键词位置列表;第二步对输入的原文‑摘要对,以及原文节点序列、摘要节点序列进行文本编码;第三步使用图神经网络对AMR进行编码;第四步构建正负样本对,与文本嵌入表示进行连接,从而实现基于AMR的对比学习;最后将原文文本上下文表示向量输入编码器,在每个解码步骤中生成新的目标摘要向量,组成最终摘要。本发明在文本摘要生成过程中增加更多隐含信息,帮助生成质量更高的摘要,解决了现有技术生成的摘要存在语义无关、事实不一致、信息性低的问题。

主权项:1.一种基于AMR对比学习的文本摘要生成的方法,其特征在于,包括以下步骤:S1、使用AMR图解析器获得每一条数据对应的AMR图;对输入的所有文本数据进行分词,并将文本序列向量化;所述输入的文本数据包括原文、参考摘要、原文AMR节点序列、参考摘要AMR节点序列;S11、AMR生成:选择AMR解析器对每条数据生成对应的AMR,其中每个句子生成一个AMR图;将AMR图中的概念实体和联系都映射为节点,概念实体和联系之间的连接映射为边,得到一个单根有向无环且边没有信息的图;S12、分词器特殊Token添加:向分词器中添加AMR的所有联系表示,使分词器将AMR序列中的联系表示正确分词;S13、关键词列表构建:结合对应的参考摘要从原文中抽取出所有与参考摘要相关的词,并记住关键词所在位置;对原文中的命名实体进行识别并记住所在位置,合并到关键词列表中;S2、将给定的文本D输入文本编码器对其进行编码;输入文本D=[w1,w2,...,wk,...,wm],其中wk表示输入文本中的第k个词,wm表示输入文本的最后一个词,m为输入序列的初始长度;对输入序列进行嵌入操作,得到输入序列的Token表示:X=[x1,x2,...,xi,...,xn],其中xi表示文本中的第i个Token,n为输入Token序列的长度;在文本每个句子前后分别添加“[CLS]”和“[SEP]”标签,标记句子的开始和结束;对输入的所有文本序列进行编码,得到文本上下文表示:H=[hcls,h1,h2,…,hi,hcls,…,hn],其中hi为文本序列的第i个Token的上下文表示,hcls为每个句子头部的[CLS]的隐藏状态,为整个句子的上下文表示:xi=EmbddingWordpiecewk,k∈[1,m],i∈[1,n]hi=BERTxi,i∈[1,n]其中,Wordpiece为分词操作,Embdding为嵌入操作,BERT为基于预训练语言模型BERT的文本编码器;其中,每个向量被分配了三种嵌入层:TokenEmbedding、SegmentEmbedding和PositionEmbedding;S3、将AMR解析结果中的概念实体和联系都映射为新图的节点,概念实体和联系之间的连接直接作为新图的边,对该图进行建模获得相应的AMR图嵌入表示;原文AMR文本序列和参考摘要AMR文本序列中每个向量为一个节点表示,每个AMR节点序列对应一个2×N的矩阵A,N为AMR图中边的数量,由S2得到每个AMR图的节点特征表示P,将P和矩阵A作为图注意力网络的输入,得到每个图的嵌入表示向量Z:Z=GATP,A;S4、构建正负样本对,并将构建好的正负样本对输入对比学习模块计算对比损失:连接输入D对应的AMR节点序列编码结果与对应的AMR图嵌入向量,连接之后的结果经过一个全连接层将向量投影到与P同维的潜在空间中;其中输入的文本D对应的AMR节点序列编码结果和AMR图嵌入表示连接作为正样本:MLPConcatP,Z,与参考摘要对应的连接向量构成正样本对;在文本D的AMR图嵌入表示的基础上进行命名实体和关键词的掩码操作得到负样本,负样本与原文AMR图嵌入表示构成负样本对:S*=MLPConcatP,ZS=ST,SP=SS,SN=MaskST其中Concat表示连接函数,MLP为投影函数,Mask为掩码方法,S*为SS或ST,其中SS表示参考摘要对应的AMR节点嵌入表示与AMR图嵌入表示的连接;ST表示原文对应的AMR节点嵌入表示与AMR图嵌入表示的连接,S为原样本,SP为正样本,SN为负样本;最后将构建好的正负样本对输入对比学习模块计算对比损失;计算对比损失的计算过程如下: 其中,SIM为用于计算样本之间相似度函数,ST为S的转置,LCL为对比学习损失,τ为温度超参,为同一批次数据中的第i个负样本;S5、将原文文本上下文表示向量输入解码器模块,在每个解码步骤中生成新的目标摘要向量,具体为:将原文的上下文表示H输入解码器,在每一个解码步骤中,解码器以自回归的方式结合前面生成的所有向量生成下一个向量;计算生成的目标向量的概率Py1,y2,...,ye|x1,x2,…,xn,其中ne,n为输入Token序列的长度,e为输出目标Token序列的长度,Y=[y1,y2,…,yn]表示生成的目标序列。

全文数据:

权利要求:

百度查询: 云南大学 基于AMR对比学习的文本摘要生成的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术