一种基于异构图的单语言主题摘要生成方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：内蒙古工业大学

摘要：一种基于异构图的单语言主题摘要生成方法，从网络爬取源语言的摘要数据集，并进行分词、分句和打标签操作；使用对抗训练学习一个从源语言到目标语言的空间线性映射，得到源语言与目标语言在同一个共享向量空间的词向量，对分词、分句和打标签操作得到的数据进行预处理，得到包含单词节点、句子节点和边特征的向量，其中源语言即为需要生成摘要的数据集的语种，目标语言为一个大型语种；使用图注意力网络，将包含单词节点、句子节点和边特征的向量进行信息聚合，不断更新单词节点与句子节点，得到信息聚合之后的句子节点；将信息聚合之后的句子节点进行节点分类，并以交叉熵损失作为训练目标，根据句子的分数排序，筛选适合作为摘要的句子节点。

主权项：1.一种基于异构图的单语言主题摘要生成方法，其特征在于，包括如下步骤：步骤1，从网络爬取源语言的摘要数据集，并进行分词、分句和打标签操作，所述源语言即为需要生成摘要的数据集的语种；步骤2，使用对抗训练学习一个从源语言到目标语言的空间线性映射，得到源语言与目标语言在同一个共享向量空间的词向量，对分词、分句和打标签操作得到的数据进行预处理，得到包含单词节点、句子节点和边特征的向量，其中所述目标语言为一个大型语种；步骤3，使用图注意力网络，将包含单词节点、句子节点和边特征的向量进行信息聚合，不断更新单词节点与句子节点，得到信息聚合之后的句子节点；步骤4，将信息聚合之后的句子节点进行节点分类，并以交叉熵损失作为训练目标，根据句子的分数排序，筛选适合作为摘要的句子节点；所述步骤2，对分词、分句和打标签操作得到的数据，利用所述源语言的词向量进行词嵌入操作，并将词嵌入整合获得句子嵌入，将词嵌入作为单词节点，句子嵌入作为句子节点，词嵌入与句子嵌入之间的关系作为边特征，构造异构图；所述对抗训练采用GAN网络，其中用来对抗的数据集是一一对应的，所述空间线性映射的映射函数如下所示：其中，X表示源语言的词嵌入，Y表示与X对应的目标语言的词嵌入，生成器生成X到Y的映射W，为一个d×d维空间的实数矩阵，||||F为F范数符号，W*表示WX-Y的F范数最小时映射函数的值；判别器辨别WX和对应Y之间的不同，通过判别器和生成器的不断对抗，直到WX与Y相似程度使得判别器判别不出；所述判别器的参数为θD，判别器的损失函数如下所示： n为源语言的单词数量，m为目标语言的单词数量，xi表示源语言中第i个单词的词嵌入，yi表示目标语言中第i个单词的词嵌入；表示判别器认为Wxi是源语言嵌入的概率，表示判别器认为yi是目标语言嵌入的概率；训练W使得判别器无法辨别出WX与Y，则其损失函数为：表示判别器认为Wxi是目标语言嵌入的概率，表示判别器认为yi是源语言嵌入的概率；给定输入的样本，判别器和映射函数W依次用随机梯度下降法进行更新，使得LDθD|W与LWWθD之和最小；最终得到源语言与目标语言在同一个共享向量空间的词向量，任意一个源语言单词的邻居节点均为目标语言的对应单词；基于所述源语言的词向量，先采用卷积神经网络捕捉每个句子局部的n-garm特征，然后采用双向长短期记忆网络捕捉句子级特征，将所述局部的n-garm特征与所述句子级特征进行连接得到上下文单词嵌入，再用multi-GCN捕捉单词间的多个关系，对于句法关系，两个单词之间存在依赖关系时，Ar[wi,wj]＝1，不存在依赖关系时，Ar[wi,wj]＝0；对于语义关系，使用单词嵌入之间的点积绝对值来构造，其中，Ar[wi,wj]表示第i个单词wi与第j个单词wj之间的句法关系或者语义关系；表示第i个单词的词向量的转置，第j个单词的词向量，表示和点积的绝对值，以判断两个单词语义是否相似；对Ar[wi,wj]进行融合，融合第l层表示计算某个单词与第l个单词之间的关系，更新函数定义为：其中，和表示权重和偏差，为初始化后的初始嵌入，即所述上下文单词嵌入，表示某个单词第l-1层最终得到的词嵌入，表示第l个GCN层，表示某个单词融合与第l个单词之间的关系后的词嵌入，表示第l个GCN层最终得到的词嵌入，通过若干个GCN层后，得到最后更新的结果H，最终的词嵌入Fw＝H+Xw，将句子的词嵌入整合即得到句子嵌入Fs；所述步骤4，摘要句选择步骤如下：1对更新之后的句子节点进行评分排名；2去除分数排名靠后的句子，保留排名靠前的句子为重点句子；3去除重点句子中排名靠后且语义与靠前的句子句意重复或关键词重复过多的句子；4提取出最终摘要；所述对更新之后的句子节点进行评分排名的具体方法如下：1、句子节点特征向量被线性变换到一个出现在摘要中的概率；2、按照概率进行排序，选择前k个作为摘要；3、丢弃与排名较高的句子有重复的三元组的句子。

全文数据：

权利要求：

百度查询：内蒙古工业大学一种基于异构图的单语言主题摘要生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种医学影像CT机检查辅助装置

下一篇：一种胶带发放装置

相关技术

一种医学影像CT机检查辅助装置

一种胶带发放装置

一种抗菌防火的烤瓷铝板

一种中型清洁车风机驱动装置

一种塑胶跑道用排水装置

一种放气保险装置

一种树木修剪装置

一种低沸点化合物滴加装置

一种光伏支架抑振装置

一种电子设备配件

一种中央电器盒

一种带有防渗漏结构的螺旋风管

语言相关技术

基于大语言模型的代码检索方法、装置_北京百度网讯科技有限公司_202410800398.0

一种集成式语言康复教育盒_成都高新西南儿童康复医院有限公司_202322812336.5

基于大语言模型的问答方法、装置_北京百度网讯科技有限公司_202410800075.1

车载大语言模型的优化方法及装置、存储介质、电子装置_重庆长安科技有限责任公司_202410779580.2

一种基于大语言模型的智能导购员的助理系统_深圳夸夸菁领科技有限公司_202410647969.1

基于人工智能的心理语言学数据挖掘集成平台_广州美术学院_202410874458.3

一种原生语音模态的语言模型训练方法_浩神科技(北京)有限公司_202410911342.2

一种基于规划大语言模型的数据到文本的生成方法_田雨卉_202410817369.5

基于大语言模型的电子档案检索方法和系统_杭州建易建设信息技术有限公司_202411124464.3

一种面向大语言模型的结构化知识注入方法及系统_哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)_202411117913.1

主题相关技术

一种文本主题标引的方法、装置、设备及可读存储介质_中国铁道科学研究院集团有限公司科学技术信息研究所_202110648194.6

一种主题获取方法、装置、电子设备及可读存储介质_深圳市飞科笛系统开发有限公司_202410855252.6

主题生成方法、装置、电子设备及存储介质_北京百度网讯科技有限公司_202410789133.5

基于深度学习的主题建模与情感分析方法及系统_山东师范大学_202410850369.5

一种基于主题模型的产品召回预测方法及系统_中南大学_202410756522.8

桌面主题切换方法、装置、介质及终端设备_TCL通讯科技(成都)有限公司_202410963199.1

虚拟环境主题处理方法及装置_支付宝(杭州)信息技术有限公司_202210989247.5

一种融合主题信息的电力数据推荐方法_广西电网有限责任公司_202410737853.7

一种融合主题信息和词向量提取文本特征的新闻分类方法_华南师范大学_202110504328.7

一种基于Bert和残差自注意力机制的政务文件主题分类方法_西安交通大学_202111469862.5

摘要相关技术

基于BERT预训练模型的中文文本摘要抽取方法及装置_北京邮电大学_202210032641.X

基于大模型的无监督多样性观点摘要生成方法与装置_山东大学_202411117362.9

文本摘要的智能抽取方法、装置、计算机设备及存储介质_中国平安财产保险股份有限公司_201910752285.7

文本摘要的抽取方法、装置、计算机设备及存储介质_东莞理工学院_202111359470.3

一种基于异构图的单语言主题摘要生成方法_内蒙古工业大学_202210416073.3

一种基于摘要信息的数据上链方法和系统_重庆数字城市科技有限公司_202310516295.7

多文档摘要生成方法、装置、设备、存储介质及程序产品_人保信息科技有限公司_202410749588.4

基于大语言模型的幂等机制生成教育文本摘要方法_武汉理工大学_202410332199.1

一种基于情感感知和强化学习的中文观点摘要抽取方法_中国电子科技集团公司第三十研究所_202410824581.4

病历摘要生成模型训练方法、病历摘要生成方法及装置_广东阳普智慧医疗信息科技有限公司_202410982151.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于异构图的单语言主题摘要生成方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务