恭喜云南师范大学甘健侯获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜云南师范大学申请的专利一种民族文化信息资源知识图谱的构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN109815340B 。
龙图腾网通过国家知识产权局官网在2025-05-06发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:201910042744.2,技术领域涉及:G06F16/36;该发明授权一种民族文化信息资源知识图谱的构建方法是由甘健侯;王俊;周菊香;文斌设计研发完成,并于2019-01-17向国家知识产权局提交的专利申请。
本一种民族文化信息资源知识图谱的构建方法在说明书摘要公布了:本发明涉及一种民族文化信息资源知识图谱的构建方法,属于知识图谱技术领域。首先利用汉语分词系统及用户自定义词库对收集到的少数民族大辞典数据中的辞条数据进行分词和词性标注,然后对分词和词性标注后的辞条数据进行检测,若连续分词均为单字的数量不小于设定的阈值,则进行人工分词操作,并把人工分词结果添加至汉语分词系统的用户自定义词库,直到无新词为止,然后对正确分词后的辞条数据进行属性提取,用以构建领域知识图谱,再次对领域知识图谱进行重复性检测,删除重复数据,将存储后的领域知识图谱与资源链接,最终进行存储。
本发明授权一种民族文化信息资源知识图谱的构建方法在权利要求书中公布了:1.一种民族文化信息资源知识图谱的构建方法,其特征在于:步骤1:收集少数民族辞条数据,构建少数民族辞条数据库,利用汉语分词系统及用户自定义词库对收集到的少数民族辞条数据库中的辞条数据进行分词和词性标注,并去除标点符号;步骤2:然后对分词和词性标注后的数据进行检测,若连续分词均为单字的数量不小于设定的阈值,则进行人工分词操作,并把人工分词结果添加至汉语分词系统的用户自定义词库,重复步骤1,直到无新词为止;步骤3:对正确分词后的数据进行属性提取,用以构建领域知识图谱;步骤4:对领域知识图谱进行重复性检测,删除重复数据,进行存储;步骤5:将存储后的领域知识图谱与资源链接;所述步骤1和步骤2中的分词系统为NLPIR汉语分词系统;所述步骤2中对分词和词性标注后的文本数据进行检测的具体方法为:①定义分词结果集合SS1,S2,……,Sm;②对集合S中每个分词结果Si统计字数,得到集合字数结果CC1,C2,……,Cm,其中Ci=lenSi,且1≤i≤m;③设定阈值k,满足2≤k≤m;④从S中抽取子集合P,P满足式1和式2 j-i+1≤k<m2说明在S中Si到Sj的位置有连续k个字数为1的分词,通过设定k值,认为连续的字数为1的分词是一个新词x,x={Si,Si+1…Si+k},Si∈S;④定义新词集合W为W=x1,x2…xn,并对W行人工审核,如果是新词,添加至用户自定义词库中;所述阈值k设定的方式为从大到小,首次设置时k=m,依次递减,直到k=1为止,每次阈值设定后重复步骤2,直到将所有新词添加至用户自定义词库中;所属步骤4中重复性检测分为以下几种类型:类型1:同一实体的同一属性有多个属性值,如果某个属性值包含其他的属性值,这消除被包含的属性值;类型2:同一实体的同一属性有多个属性值,如果属性值之间互斥,则根据拥有该属性值的数量进行判断,属性值较多的保留,并提交人工审核;类型3:同一实体的同一属性有多个属性值,如果属性值之间互斥,拥有该属性值的数量也相同,则完全提交人工审核。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人云南师范大学,其通讯地址为:650500 云南省昆明市呈贡区聚贤街768号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。