基于AMR对比学习的文本摘要生成的方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：云南大学

摘要：本发明提供一种基于AMR对比学习的文本摘要生成的方法，首先根据给定的文本‑摘要生成对应的AMR，并将语义联系映射为节点添加到原有概念节点序列中，对比原文与摘要对应的节点序列，获得关键词位置列表；第二步对输入的原文‑摘要对，以及原文节点序列、摘要节点序列进行文本编码；第三步使用图神经网络对AMR进行编码；第四步构建正负样本对，与文本嵌入表示进行连接，从而实现基于AMR的对比学习；最后将原文文本上下文表示向量输入编码器，在每个解码步骤中生成新的目标摘要向量，组成最终摘要。本发明在文本摘要生成过程中增加更多隐含信息，帮助生成质量更高的摘要，解决了现有技术生成的摘要存在语义无关、事实不一致、信息性低的问题。

主权项：1.一种基于AMR对比学习的文本摘要生成的方法，其特征在于，包括以下步骤：S1、使用AMR图解析器获得每一条数据对应的AMR图；对输入的所有文本数据进行分词，并将文本序列向量化；所述输入的文本数据包括原文、参考摘要、原文AMR节点序列、参考摘要AMR节点序列；S11、AMR生成：选择AMR解析器对每条数据生成对应的AMR，其中每个句子生成一个AMR图；将AMR图中的概念实体和联系都映射为节点，概念实体和联系之间的连接映射为边，得到一个单根有向无环且边没有信息的图；S12、分词器特殊Token添加：向分词器中添加AMR的所有联系表示，使分词器将AMR序列中的联系表示正确分词；S13、关键词列表构建：结合对应的参考摘要从原文中抽取出所有与参考摘要相关的词，并记住关键词所在位置；对原文中的命名实体进行识别并记住所在位置，合并到关键词列表中；S2、将给定的文本D输入文本编码器对其进行编码；输入文本D＝[w1,w2,...,wk,...,wm]，其中wk表示输入文本中的第k个词，wm表示输入文本的最后一个词，m为输入序列的初始长度；对输入序列进行嵌入操作，得到输入序列的Token表示：X＝[x1,x2,...,xi,...,xn]，其中xi表示文本中的第i个Token，n为输入Token序列的长度；在文本每个句子前后分别添加“[CLS]”和“[SEP]”标签，标记句子的开始和结束；对输入的所有文本序列进行编码，得到文本上下文表示：H＝[hcls,h1,h2,…,hi,hcls,…,hn]，其中hi为文本序列的第i个Token的上下文表示，hcls为每个句子头部的[CLS]的隐藏状态，为整个句子的上下文表示：xi＝EmbddingWordpiecewk,k∈[1,m],i∈[1,n]hi＝BERTxi,i∈[1,n]其中，Wordpiece为分词操作，Embdding为嵌入操作，BERT为基于预训练语言模型BERT的文本编码器；其中，每个向量被分配了三种嵌入层：TokenEmbedding、SegmentEmbedding和PositionEmbedding；S3、将AMR解析结果中的概念实体和联系都映射为新图的节点，概念实体和联系之间的连接直接作为新图的边，对该图进行建模获得相应的AMR图嵌入表示；原文AMR文本序列和参考摘要AMR文本序列中每个向量为一个节点表示，每个AMR节点序列对应一个2×N的矩阵A，N为AMR图中边的数量，由S2得到每个AMR图的节点特征表示P，将P和矩阵A作为图注意力网络的输入，得到每个图的嵌入表示向量Z：Z＝GATP,A；S4、构建正负样本对，并将构建好的正负样本对输入对比学习模块计算对比损失：连接输入D对应的AMR节点序列编码结果与对应的AMR图嵌入向量，连接之后的结果经过一个全连接层将向量投影到与P同维的潜在空间中；其中输入的文本D对应的AMR节点序列编码结果和AMR图嵌入表示连接作为正样本：MLPConcatP,Z，与参考摘要对应的连接向量构成正样本对；在文本D的AMR图嵌入表示的基础上进行命名实体和关键词的掩码操作得到负样本，负样本与原文AMR图嵌入表示构成负样本对：S*＝MLPConcatP,ZS＝ST，SP＝SS，SN＝MaskST其中Concat表示连接函数，MLP为投影函数，Mask为掩码方法，S*为SS或ST，其中SS表示参考摘要对应的AMR节点嵌入表示与AMR图嵌入表示的连接；ST表示原文对应的AMR节点嵌入表示与AMR图嵌入表示的连接，S为原样本，SP为正样本，SN为负样本；最后将构建好的正负样本对输入对比学习模块计算对比损失；计算对比损失的计算过程如下：其中，SIM为用于计算样本之间相似度函数，ST为S的转置，LCL为对比学习损失，τ为温度超参，为同一批次数据中的第i个负样本；S5、将原文文本上下文表示向量输入解码器模块，在每个解码步骤中生成新的目标摘要向量，具体为：将原文的上下文表示H输入解码器，在每一个解码步骤中，解码器以自回归的方式结合前面生成的所有向量生成下一个向量；计算生成的目标向量的概率Py1,y2,...,ye|x1,x2,…,xn，其中ne，n为输入Token序列的长度，e为输出目标Token序列的长度，Y＝[y1,y2,…,yn]表示生成的目标序列。

全文数据：

权利要求：

百度查询：云南大学基于AMR对比学习的文本摘要生成的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于AMR对比学习的文本摘要生成的方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务