Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于知识图谱的文本内容摘要生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京邮电大学

摘要:基于知识图谱的文本内容摘要生成方法,通过知识图谱技术,对篇幅较长的文本内容进行知识结点抽取和逻辑结构分析,采用图语义摘要技术,生成内容更加凝聚的文本内容摘要。该方法不仅可以用于单篇文章的内容生成,通过结合分类融合技术,还能实现多篇文章的内容摘要生成,可以实现针对某个自然资源的多方面内容的自动摘要整理工作。

主权项:1.基于知识图谱的文本内容摘要生成方法,其特征在于:所述方法包括如下步骤:步骤1,对于输入的文本进行预处理工作,进行分句得到句子集合,并设定摘要输出格式;步骤2,利用知识图谱网络,基于实体概念集以及概念相似度,对文本进行实体增强;所述步骤2包括以下过程:针对集合Ls中的句子lg,利用命名实体识别工具ltp,得到句子lg的实体集合E={e1,e2,...em};利用知识图谱网络,对原文S进行实体增强,得到实体增强集DInc,具体流程如下:在包含实体和实体概念的开发领域知识图谱G中,若实体ei∈G,则根据图谱得到实体的概念集利用文本相似函数Sim计算lg与概念集中每个概念的相似度,其中文本相似度的计算方式如下: 其中,句子lg的向量表示为lg={x1,x2,...,xn},di的向量表示为di={y1,y2,...,yn},文本的向量表示通过BERT预训练模型中提取;然后,选取与lg最匹配的实体ei的一条概念设置概念候选阈值k,若时,将概念加入实体增强集中;重复以上步骤,遍历完实体集合E,得到句子lg的实体增强集DInc;步骤3,对于得到的句子集合,利用BERT预训练模型,初始化文本序列向量;步骤4,利用编码器对文本语句和实体增强语句进行编码,通过解码器将二者拼接,生成摘要;所述步骤4包括以下过程:在原文编码器Encoder中,以原文文本序列向量表征X作为输入,利用LSTM模型计算在t1时间步的隐藏层状态ht1,1≤t1≤M,其中ht1=LSTMencxt1,ht1-1,xt1为t1时间步的输入,ht1-1为上一时间步的隐藏状态;对于长度为M的序列输入,总共经过M个时间步,计算得到原文隐藏状态序列H={h1,h2,...hM};实体编码器与原文编码器的模型架构相同,以实体文本序列向量表征Z作为输入,计算在t2时间步的隐藏状态h′t2=LSTMencxt2,h′t2-1,1≤t2≤K,并经过N个时间步,得到实体部分隐藏状态序列H′={h′1,h′2,...h′N};在解码器Decoder中,利用得到的H和H′的最后一个时间步的隐藏状态序列,来初始化解码器的初始状态s0=ReLUWf·[hM,h′N],其中ReLUx=max0,x,Wf为学习参数;在解码器Decoder中,利用LSTM模型计算t时间步的隐藏状态st=LSTMdecyt-1,[st-1,ct-1,c′t-1],0≤t≤N,其中st-1为上一个时间步的隐藏状态输出,yt-1为上一时间步的解码器输入,ct-1,c′t-1为上一时间步的原文信息和实体信息的上下文向量;对于当前时间步t利用原文信息和实体信息来计算解码器的attention分布,计算方式如下: at=softmaxut a′t=softmaxu′t其中at,a′t为时间步t下,原文信息和实体信息的attention分布,ut为时间步t下原文信息隐藏层的attention信息,其中为第i个时间步的attention信息,hi是原文第i个时间步的隐藏状态;u′t为时间步t下实体信息隐藏层的attention信息,其中为第j个时间步的attention信息,h′j是实体第j个时间步的隐藏状态;Wh,Ws,W′h,W′s,vT,v′T,battn,b′attn为学习参数;利用在时间步t的原文信息和和实体信息的attention分布,计算当前时间步的上下文向量其中ati表示原文第i个时间的attention表示,a′tj表示实体第j个时间步的attention表示;在解码时,利用参数λ控制原文信息和实体信息的比例,得到词汇表中单词的概率矩阵Pw: 其中当前时间步的其中为模型学习参数,σ为sigmoid函数;模型训练的损失函数为为当前时间步的真实字符,并利用反向传播算法更新学习参数,即函数x′=BPx,x是学习参数;至此获取t时刻输出概率最高的n个单词,通过beam-search算法,将这n个单词分别与前t-1时刻的单词进行组合,生成t时刻的候选摘要集,其中beam-search算法规定beamsize的大小为k;第一个时间步长,选取当前条件概率最大的k个词,当做候选输出序列的第一个词;之后的每个时间步长,基于上个步长的输出序列,挑选出所有组合中条件概率最大的k个,作为该时间步长下的候选输出序列;始终保持k个候选;最后从k个候选中挑出最优的;重复以上过程,直至输出单词为Aend标识符或生成摘要长度为K,得到最终摘要。

全文数据:

权利要求:

百度查询: 南京邮电大学 基于知识图谱的文本内容摘要生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。