恭喜南京邮电大学;深圳市数字城市工程研究中心孙国梓获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京邮电大学;深圳市数字城市工程研究中心申请的专利一种文章标题层次结构的提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN113961702B 。
龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111242645.2,技术领域涉及:G06F40/16;该发明授权一种文章标题层次结构的提取方法是由孙国梓;陆珏萦;李华康设计研发完成,并于2021-10-25向国家知识产权局提交的专利申请。
本一种文章标题层次结构的提取方法在说明书摘要公布了:本发明公开了一种文章标题层次结构的提取方法,首先分别构造了标题判别模型、标题之间关系分类模型,然后将具体文章示例输入标题判别模型得到文章标题,将文章标题输入标题之间关系分类模型得到标题之间的关系,最后根据标题之间的关系构造标题的层次结构,本发明的有益效果是在python读取文章的时候,对读取不到序号的标题,构造判断模型判断标题跟其他标题的关系,对标题层次结构信息进行识别。
本发明授权一种文章标题层次结构的提取方法在权利要求书中公布了:1.一种文章标题层次结构的提取方法,其特征在于,所述方法的步骤为:步骤1、构建标题判别模型,判断文章中某段落是否为标题;步骤2、构建标题之间的关系分类模型,得到标题之间的分类结果;具体为:步骤2-1、将得到的文章di中所有标题组成集合为{t1,t2,…,tr},其中r为标题的数量;步骤2-2、对文章di所有的标题,两两标注两个标题之间的关系,其中,定义文章标题之间的关系包括:包含、并列、无关,人工标注标题之间的关系,文章上级标题于对所属的下级标题关系标注为“包含”,同一上级标题下的同级标题关系标注为“并列”,非上述情况的标题之间关系标注为“无关”;步骤2-3、对标题集合{t1,t2,…,tr}中任意两个标题ti和tj,使用hanlp分词工具分别对标题ti和tj进行分词,得到单词列表wti和wtj;步骤2-4、使用word2vec算法计算单词列表wti、wtj中每个单词的词向量,得到标题ti、tj中所有单词的词向量组成的序列sti、stj;步骤2-5、使用keras工具包中的lstm神经网络算法,将词向量序列sti、stj分别输入lstm神经网络中,输出标题ti的特征向量u及tj的特征向量v;步骤2-6、使用keras工具包中的Batchnormalize算法,将特征向量u和特征向量v分别输入Batchnormalize算法进行归一化处理,得到向量u’,v’;步骤2-7、使用sklearn工具包中的余弦相似度算法计算向量u’、v’的余弦相似度,得到u’与v’的余弦相似度的值cossimilarityu’,v’;步骤2-8、计算向量u’-v’的绝对值,得到向量absu’-v’;步骤2-9、将向量u’和v’、向量absu’-v’、cossimilarityu’,v’拼接形成向量[u’,v’,absu’-v’,cossimilarityu’,v’];步骤2-10、使用keras工具包中的全连接层dense,激活函数为softmax,将向量[u’,v’,absu’-v’,cossimilarityu’,v’]作为dense层的输入,输出标题ti与标题tj之间关系的分类结果;步骤2-11、通过输入的分类标签,对lstm神经网络和分类器进行训练,使lstm神经网络参数和dense层的参数能够不断更新优化,得到标题关系分类模型;步骤3、根据标题之间的分类结果提取标题的层次关系。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学;深圳市数字城市工程研究中心,其通讯地址为:210023 江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。