首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于异构图的单语言主题摘要生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:内蒙古工业大学

摘要:一种基于异构图的单语言主题摘要生成方法,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作;使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中源语言即为需要生成摘要的数据集的语种,目标语言为一个大型语种;使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点。

主权项:1.一种基于异构图的单语言主题摘要生成方法,其特征在于,包括如下步骤:步骤1,从网络爬取源语言的摘要数据集,并进行分词、分句和打标签操作,所述源语言即为需要生成摘要的数据集的语种;步骤2,使用对抗训练学习一个从源语言到目标语言的空间线性映射,得到源语言与目标语言在同一个共享向量空间的词向量,对分词、分句和打标签操作得到的数据进行预处理,得到包含单词节点、句子节点和边特征的向量,其中所述目标语言为一个大型语种;步骤3,使用图注意力网络,将包含单词节点、句子节点和边特征的向量进行信息聚合,不断更新单词节点与句子节点,得到信息聚合之后的句子节点;步骤4,将信息聚合之后的句子节点进行节点分类,并以交叉熵损失作为训练目标,根据句子的分数排序,筛选适合作为摘要的句子节点;所述步骤2,对分词、分句和打标签操作得到的数据,利用所述源语言的词向量进行词嵌入操作,并将词嵌入整合获得句子嵌入,将词嵌入作为单词节点,句子嵌入作为句子节点,词嵌入与句子嵌入之间的关系作为边特征,构造异构图;所述对抗训练采用GAN网络,其中用来对抗的数据集是一一对应的,所述空间线性映射的映射函数如下所示: 其中,X表示源语言的词嵌入,Y表示与X对应的目标语言的词嵌入,生成器生成X到Y的映射W,为一个d×d维空间的实数矩阵,||||F为F范数符号,W*表示WX-Y的F范数最小时映射函数的值;判别器辨别WX和对应Y之间的不同,通过判别器和生成器的不断对抗,直到WX与Y相似程度使得判别器判别不出;所述判别器的参数为θD,判别器的损失函数如下所示: n为源语言的单词数量,m为目标语言的单词数量,xi表示源语言中第i个单词的词嵌入,yi表示目标语言中第i个单词的词嵌入; 表示判别器认为Wxi是源语言嵌入的概率,表示判别器认为yi是目标语言嵌入的概率;训练W使得判别器无法辨别出WX与Y,则其损失函数为: 表示判别器认为Wxi是目标语言嵌入的概率,表示判别器认为yi是源语言嵌入的概率;给定输入的样本,判别器和映射函数W依次用随机梯度下降法进行更新,使得LDθD|W与LWWθD之和最小;最终得到源语言与目标语言在同一个共享向量空间的词向量,任意一个源语言单词的邻居节点均为目标语言的对应单词;基于所述源语言的词向量,先采用卷积神经网络捕捉每个句子局部的n-garm特征,然后采用双向长短期记忆网络捕捉句子级特征,将所述局部的n-garm特征与所述句子级特征进行连接得到上下文单词嵌入,再用multi-GCN捕捉单词间的多个关系,对于句法关系,两个单词之间存在依赖关系时,Ar[wi,wj]=1,不存在依赖关系时,Ar[wi,wj]=0;对于语义关系,使用单词嵌入之间的点积绝对值来构造,其中,Ar[wi,wj]表示第i个单词wi与第j个单词wj之间的句法关系或者语义关系;表示第i个单词的词向量的转置,第j个单词的词向量,表示和点积的绝对值,以判断两个单词语义是否相似;对Ar[wi,wj]进行融合,融合第l层表示计算某个单词与第l个单词之间的关系,更新函数定义为: 其中,和表示权重和偏差,为初始化后的初始嵌入,即所述上下文单词嵌入,表示某个单词第l-1层最终得到的词嵌入,表示第l个GCN层,表示某个单词融合与第l个单词之间的关系后的词嵌入,表示第l个GCN层最终得到的词嵌入,通过若干个GCN层后,得到最后更新的结果H,最终的词嵌入Fw=H+Xw,将句子的词嵌入整合即得到句子嵌入Fs;所述步骤4,摘要句选择步骤如下:1对更新之后的句子节点进行评分排名;2去除分数排名靠后的句子,保留排名靠前的句子为重点句子;3去除重点句子中排名靠后且语义与靠前的句子句意重复或关键词重复过多的句子;4提取出最终摘要;所述对更新之后的句子节点进行评分排名的具体方法如下:1、句子节点特征向量被线性变换到一个出现在摘要中的概率;2、按照概率进行排序,选择前k个作为摘要;3、丢弃与排名较高的句子有重复的三元组的句子。

全文数据:

权利要求:

百度查询: 内蒙古工业大学 一种基于异构图的单语言主题摘要生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。