恭喜中国人民解放军战略支援部队信息工程大学王艺霏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国人民解放军战略支援部队信息工程大学申请的专利基于知识图谱的领域长文本分类方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116521882B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310624760.9,技术领域涉及:G06F16/35;该发明授权基于知识图谱的领域长文本分类方法及系统是由王艺霏;汪永伟;张玉臣;张恒巍;周洪伟;周胜男;王沁武;李相成设计研发完成,并于2023-05-30向国家知识产权局提交的专利申请。
本基于知识图谱的领域长文本分类方法及系统在说明书摘要公布了:本发明属于文本分类技术领域,特别涉及一种基于知识图谱的领域长文本分类方法及系统,该方法首先利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量;然后构建知识图谱和依存关系图;将知识图谱和依存关系图分别输入两个GCN模块,基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量;其次使用图结构掩码模型分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量;最后采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。本发明通过融合知识特征和数据特征,提升领域长文本分类的准确性。
本发明授权基于知识图谱的领域长文本分类方法及系统在权利要求书中公布了:1.一种基于知识图谱的领域长文本分类方法,其特征在于,包含以下步骤: 步骤1、利用BERT模型对输入文本进行编码,获得含有丰富语义信息的初始化向量,把每个词对应初始化向量作为GCN模型的节点,该GCN模型包含两个GCN模块,分别是实体关系图神经网络和依赖关系图神经网络; 步骤2、使用训练好的实体关系抽取模型提取文本中实体信息和实体之间的关系信息,构建知识图谱;使用句法依存工具自动处理文本并生成句法依存树,在句法依存树上构建依存关系图; 步骤3、将知识图谱和依存关系图分别输入实体关系图神经网络和依赖关系图神经网络,在GCN模块中,对于每个词,将其与相关上下文词的实体关系类型或依赖关系类型作为上下文特征进行编码;同时基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,依赖关系图神经网络输出增加依赖关系类型信息的词向量,将初始化词向量与增加边类型信息的词向量融合得到最终词向量;具体包含: GCN模块输出向量计算公式如下: 设置节点初始特征矩阵其中ndoc是文本节点数,nentity是抽取实体数;对于长度为n的文本,构建一个邻接矩阵A=ai,jn×n,当词语xi和xj之间存在句法依存或实体关系,则ai,j=1,反之不存在关系,则ai,j=0; 存在任意词语xi,则第l层GCN的输出表示为: 其中ai.j∈A,是词语xj在GCN第l-1层的输出,Wl是可训练矩阵,bl是第l层GCN的偏差,σ是激活函数ReLU; 基于注意力机制,实体关系图神经网络输出增加实体关系类型信息的词向量,包括: 使用B=ri,jn×n表示实体关系类型矩阵,其中ri,j是xi和xj之间的实体关系类型,将每个类型ri,j映射到其嵌入基于注意力机制计算GCN中第l层节点i和j之间连接的权重pl i,j,pl i,j的计算公式如下: 其中,ai.j∈A,和分别是xi和xj的中间向量,和的计算公式如下: 其中,和分别是节点i和j在GCN第l-1层的输出,表示拼接; 最终实体关系图神经网络输出向量的计算公式如下: 是增加了实体关系类型信息的向量,计算公式为: 其中,将实体关系类型嵌入映射到与相同的维度,是词语xj在GCN第l-1层的输出; 基于注意力机制,依赖关系图神经网络输出增加依赖关系类型信息的词向量,包括: 使用C=ti,jn×n表示依赖关系类型矩阵,其中ti,j是xi和xj之间的依赖关系类型,将每个类型ti,j映射到其嵌入基于注意力机制计算GCN中第l层节点i和j之间连接的权重ql i,j,ql i,j的计算公式如下: 其中ai.j∈A,和分别是xi和xj的中间向量,和的计算公式如下: 其中和分别是节点i和j在GCN第l-1层的输出,表示拼接; 最终依赖关系图神经网络输出的计算公式如下: 是增加了依赖关系类型信息的向量,计算公式为: 其中,将依赖关系类型嵌入映射到与相同的维度,是词语xj在GCN第l-1层的输出; 最终,将两个GCN模块生成向量拼接得到GCN模型的输出: 步骤4、使用图结构掩码模型随机将两个节点之间的边连接进行遮蔽,让图结构掩码模型预测两个节点之间是否有连接关系以及连接的类型,最终分别得到实体关系类型向量和依赖关系类型向量,将两个向量拼接得到边类型向量; 步骤5、采用交叉熵损失函数优化模型,通过softmax函数得到分类概率实现领域长文本分类。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军战略支援部队信息工程大学,其通讯地址为:450000 河南省郑州市高新区科学大道62号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。