恭喜安徽大学赵姝获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜安徽大学申请的专利文档层次结构联合全局局部信息抽取关键短语方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115017903B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210697632.2,技术领域涉及:G06F40/289;该发明授权文档层次结构联合全局局部信息抽取关键短语方法及系统是由赵姝;殷俊;郭双瑞;张金磊;段震;陈洁设计研发完成,并于2022-06-20向国家知识产权局提交的专利申请。
本文档层次结构联合全局局部信息抽取关键短语方法及系统在说明书摘要公布了:本发明提供文档层次结构联合全局局部信息抽取关键短语方法及系统,方法包括:分词和磁性标注,NP分块;判断文档长度,根据文档长度使用BERT模型进行文档和单词的嵌入;全局相似性度量,本发明创新性地使用文档标题和结尾来对候选关键短语进行全局相似度评估,解决因为向量空间对齐造成的对较长候选短语的偏爱;局部相似度评估,采用全新的主题中心度,对全文的候选关键短语进行主题划分和聚类,充分捕获到局部显著信息;结合位置信息、全局相似度、局部相似度对候选短语进行综合评估并打分,然后根据得分进行排名;进行后处理操作,以选择关键短语。本发明解决了语义丢失、偏爱长短语、主体信息挖掘不充分导致关键短语抽取准确率低的技术问题。
本发明授权文档层次结构联合全局局部信息抽取关键短语方法及系统在权利要求书中公布了:1.文档层次结构联合全局局部信息抽取关键短语方法,其特征在于,所述方法包括:S1、利用StandfordCoreNLP工具对输入文档进行分词和词性标注,根据预置抽取规则进行NP分块,以生成候选关键短语集合;S2、判断所述输入文档的长度是否小于或等于预置文档长度阈值,若是,则利用BERT模型嵌入处理所述输入文档,以得到向量表达,若否,则根据预置范围获取所述输入文档的指定范围内容,将所述指定范围内容输入所述SimCSE模型,以进行嵌入获取所述候选关键短语的所述向量表达、标题向量及结尾向量;S3、处理所述标题向量及所述结尾向量,以对所述候选关键短语进行全局相似性度量,据以得到全局相似度;S4、利用主题中心度,以预置逻辑对所述输入文档全文的所述候选关键短语进行主题划分和聚类,据以局部相似度评估得到局部相似度,其中,所述步骤S4还包括:S41、以所述候选关键短语作为节点、以所述节点间的相似度作为边,据以构建完全无向图;S42、根据每一所述输入文档的最大值及最小值设置自适应滤噪阈值,其中,所述步骤S42包括:S421、利用图中心性计算方法,以下述逻辑处理所述候选关键短语i: 其中,S422、利用下述逻辑设置所述自适滤噪应阈值θ;θ=mineij+β×maxeij-mineijS43、根据所述自适应滤噪阈值更新将所述边的权重,以得到局部显著性数据,根据所述局部显著性数据得到更新边,其中,所述步骤S43包括:S431、利用下述逻辑处理得到所述局部显著性数据: 其中,代表候选短语i的局部显著性;S432、根据所述局部显著性数据获取所述更新边,在所述更新边的权重小于0时,设置该所述更新边的权重为0;S44、获取所述输入文档全文的所述候选关键短语的位置信息,其中,所述步骤S44包括:S441、以下述逻辑计算所述候选关键短语在所述输入文档中首次出现位置,以作为候选关键短语位置得分: 其中,p1是候选术语i首次出现的位置;S442、利用softmax函数平滑处理所述候选关键短语位置得分,以利用下述逻辑处理得到所述位置信息: S45、根据所述位置信息计算得到所述局部相似度,其中,所述步骤S45中,利用下述逻辑处理所述位置信息,据以得所述候选关键短语i的所述局部相似度 S5、结合处理所述位置信息、所述全局相似度、所述局部相似度,以对所述候选关键短语进行综合评估并打分,据以排序处理所述候选关键短语,以得到关键短语排名数据;S6、根据所述关键短语排名数据得到候选关键短语排序数据集,对所述候选关键短语进行后处理操作,删除所述候选关键短语集合的子集,以获取语义多样性关键短语,获取词汇频率数据,据以去除所述候选关键短语排序数据集上的高频通用短语,以滤除高频无效短语干扰。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽大学,其通讯地址为:230039 安徽省合肥市蜀山区肥西路3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。