恭喜深圳计算科学研究院任威隆获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜深圳计算科学研究院申请的专利错误匹配实体的数据的清洗方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117708105B 。
龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311572735.7,技术领域涉及:G06F16/215;该发明授权错误匹配实体的数据的清洗方法、装置、设备及介质是由任威隆;王尧舒;谢珉;樊文飞设计研发完成,并于2023-11-21向国家知识产权局提交的专利申请。
本错误匹配实体的数据的清洗方法、装置、设备及介质在说明书摘要公布了:本申请适用于数据清洗技术领域,尤其涉及一种错误匹配实体的数据的清洗方法、装置、设备及介质。该方法对获取的数据元组进行异常检测,得到表征为异常的实体元组及实体元组中的异常属性,对实体元组的实体类型进行检测,若检测到实体元组的实体类型为混合实体类型,则确定实体元组为混合实体,根据混合实体中的每个异常属性及对应的属性值,构建对应每个异常属性的分割实体,对每个分割实体分别进行异常纠正,得到纠正后的分割实体,确定所有纠正后的分割实体为对混合实体进行清洗的结果,通过找出混合实体和对混合实体中每个异常属性构建分割实体,以分别对分割实体进行纠正和清洗,避免出现数据被丢弃的情况。
本发明授权错误匹配实体的数据的清洗方法、装置、设备及介质在权利要求书中公布了:1.一种错误匹配实体的数据的清洗方法,其特征在于,所述清洗方法包括:获取数据元组和预设的异常检测规则,其中,所述数据元组包括至少一个实体元组,所述实体元组为关系表中的一行数据,所述一行数据包括至少一个列,每一列表征对应实体的属性的属性值;针对所述数据元组中任一个实体元组,使用所述预设的异常检测规则,对所述任一个实体元组的每个属性进行异常检测,得到检测结果为异常的异常属性;若所述任一个实体元组中存在所述异常属性,则确定所述任一实体元组为表征异常的实体元组,从所有的异常属性中,确定属于所述实体元组的异常属性;获取预设知识图谱,根据所述预设知识图谱,对所述实体元组的对象进行映射提取,得到所述实体元组的对象集;检测所述对象集中是否包含至少两个对象,若检测到所述对象集中包含至少两个对象,则确定所述实体元组的实体类型为混合实体类型,若检测到所述实体元组的实体类型为混合实体类型,则确定所述实体元组为混合实体,其中,所述混合实体类型对应的实体元组表征不止一种对象,所述对象为一物体或者地点;若所述混合实体的异常属性为冲突异常,则将所述混合实体分割为表征不同物体或者地点对应的分割实体,其中,每个分割实体均包含一个异常属性和对应的属性值;对每个分割实体分别进行异常纠正,得到纠正后的分割实体,确定所有纠正后的分割实体为对所述混合实体进行清洗的结果;所述对每个分割实体分别进行异常纠正,得到纠正后的分割实体,包括:针对每个分割实体中任一分割实体,检测所述分割实体对应异常属性的属性值是否为空;若检测到所述分割实体对应异常属性的属性值不为空,则根据所述分割实体和对应异常属性,结合预设的匹配规则和或匹配模型,匹配到正确属性值;使用所述正确属性值对所述分割实体对应异常属性的属性值进行替换纠正,得到纠正后的分割实体。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳计算科学研究院,其通讯地址为:518000 广东省深圳市龙华区民治街道红山六九七九商业中心(二期)9栋26座1001;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。