首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种RDF数据冗余语义的检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京航空航天大学

摘要:本发明公开了一种RDF数据冗余语义的检测方法。RDF是知识图谱的一种表示模型,为实现对以RDF表示的知识图谱进行冗余语义的检测,本发明在总结和分析现有的RDF冗余语义检测方法的基础上,改进了RDF相似度算法,对不同语义信息对相似度的贡献做出了权值设计,且权值设置是领域独立的和自动化的。并且该算法在语义信息的表示中还设计了剪枝技术,有效提高了相似性计算的速度。此外在相似度算法的基础上,本发明还提出了一种筛选候选对象的选择方法,用于寻找数据集中近似的候选数据。该方法是基于局部敏感哈希算法的,该算法能有效解决大规模RDF数据线性搜索带来的时间复杂度高的问题,具有良好的时间性能。

主权项:1.一种RDF数据冗余语义的检测方法,其特征在于,包括如下步骤:1设计RDF节点语义信息表示方法;2提出RDF语义信息中路径的权重设计;对于RDF节点,其路径的集合构成其语义信息;为了计算相似度,在相似度计算中还需要设计每条路径的权重;3结合RDF语义信息和权重设计,提出RDF节点相似度算法;通过对比两个节点语义信息中的路径相似度来综合得出相似度评分;4基于局部敏感哈希算法,提出RDF数据聚类方法,用于提高冗余搜索效率;所述步骤2中设计的RDF语义信息中路径的权重,为计算RDF相似度增加了准确性,详细步骤如下:2.1RDF语义信息中的权重由路径的权重决定;2.2路径的权重由路径中的三元组决定;2.3分类能力强的三元组具有更大的权重,能够很好地区分相似的节点;三元组权重与谓词的分类能力呈正相关;而三元组的权重通过三元组中谓词的分类能力来计算;对于谓词,它所链接的值的类型越多样,分类就越强;计算方法如等式1所示 其中“Per”表示谓词pi的分类能力;所述步骤3中提出的基于语义信息计算的RDF相似度算法,详细步骤如下:3.1让节点uri1和uri2成为计算相似性的两个资源;首先需要获得节点uri1和uri2的上下文信息表示,所述上下文信息表示分别由paths1和paths2表示;然后,对于paths1中的每个路径,进一步确定以下情况:3.1.1当path1的最后一个元素的类型为Literal;此时,在paths2中搜索能够与path1进行比较的所有可能路径;然后计算path1和path2之间的相似性,这是通过计算它们最后元素之间的文本相似性来实现的;从所有相似性中,最终选择一个相似性最高的,其中对应的path2被视为与path1匹配;最后将匹配项的相似性得分添加到path_score中,并计算两条匹配路径的权重,这两条匹配路径被添加到path_weight中;3.1.2当path1的最后一个元素具有URI类型;然后,在paths2中搜索可能的路径,该路径能够与path1进行比较;然后比较path2的最后一个元素是否与path1的最后一个元素相同;如果它们相同,则最后一个元素相同的path2被视为与path1匹配项;接着将匹配项的相似性得分添加到path_score中,并计算两条匹配路径的权重,这两条匹配路径被添加到path_weight中;最后,total_score等于所有匹配对的相似性之和乘以相应的权重;3.2当步骤3.1.2所述两条匹配路径深度相同,且路径中对应位置的谓词具有可比性时,认为这两条路径具有可比性;谓词的可比性意味着两个谓词具有相同的值和相同的方向;如果两个谓词具有不同的值,但其中一个谓词是本体模型中另一个谓词的祖先,则认为这两个谓词具有可比性;所述步骤4中设计的适用于RDF冗余检测的聚类算法,具体步骤如下:4.1选择以RDF资源所在三元组的主语或宾语作为资源的特征,对RDF节点特征集进行分词,构造特征矩阵;4.2选择维度n,在特征矩阵上计算n行Minhash,构造Minhash签名矩阵;其中n为哈希函数个数;4.3选择波段b和行数r,其中,b*r=n,并设置一个阈值t;4.4签名矩阵采用LSH,将资源划分为桶,构造候选对;4.5检查每个候选对的签名,并确定组件的分数是否至少为t;4.6对于具有相似签名的候选对,检查其相似度以证明它们是否是重复资源。

全文数据:

权利要求:

百度查询: 南京航空航天大学 一种RDF数据冗余语义的检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。