恭喜深圳计算科学研究院王尧舒获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜深圳计算科学研究院申请的专利一种基于多轮采样的数据筛查规则验证方法及其装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115033616B 。
龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210648307.7,技术领域涉及:G06F16/2458;该发明授权一种基于多轮采样的数据筛查规则验证方法及其装置是由王尧舒;谢珉;樊文飞设计研发完成,并于2022-06-09向国家知识产权局提交的专利申请。
本一种基于多轮采样的数据筛查规则验证方法及其装置在说明书摘要公布了:本申请提供了一种基于多轮采样的数据筛查规则验证方法及其装置,用于对大数据库内的目标数据进行数据筛查确定数据筛查规则,所述方法包括获取所述目标数据,并依据所述目标数据确定对应的数据关系表格;依据所述元组构建关系图G;对所述顶点集合V中的顶点进行K次采样生成K个采样数据;对K个所述采样数据进行逐层搜索构建整体同步并行计算模型;依据所述调度结点和若干个所述工作结点对K个所述采样数据进行数据筛查生成目标数据筛查规则。多轮采样能够使得数据筛查规则召回率提高;在构建关系图G的过程中,在边构建中考虑了谓词的影响,从而使得能用于规则发现的有用数据会以更高优先级被采样;保证采样的准确性;提升数据筛查运算效率。
本发明授权一种基于多轮采样的数据筛查规则验证方法及其装置在权利要求书中公布了:1.一种基于多轮采样的数据筛查规则验证方法,用于对大数据库内的目标数据进行数据筛查确定数据筛查规则,其特征在于,包括:获取所述目标数据,并依据所述目标数据确定对应的数据关系表格,其中,所述数据关系表格中的每一行生成一元组,且至少包括一个元组;依据所述元组构建关系图G,其中,所述关系图G包括顶点集合V和边集合E;依据所述元组生成若干个顶点;所述若干个顶点之间相连生成若干条边;依据所述若干个顶点构建和所述若干条边构建边集合E;当所述边集合E中的一条边e分别连接所述顶点集合v中的一顶点t和另一顶点s时,对应于所述顶点t和所述顶点s构建的元组对至少满足一等式谓词;依据所述顶点集合V和所述边集合E构建所述关系图G;对所述顶点集合V中的顶点进行K次采样生成K个采样数据;对K个所述采样数据进行逐层搜索构建整体同步并行计算模型,其中,所述整体同步并行计算模型包括一调度结点和若干个工作结点;依据所述调度结点和若干个所述工作结点对K个所述采样数据进行数据筛查生成目标数据筛查规则;所述调度结点将K个所述采样数据对应生成若干个任务,若干个所述任务中的每一个任务为三元组,所述三元组内包括被选择谓词集合、待选谓词集合和有效谓词;依据所述调度结点将若干个所述任务平均分配至所述工作结点,所述工作结点至少包括一个;当所述工作结点内存在大于预设任务量的所述任务时,将所述工作结点中的一半任务量分配至其他工作结点;或,当所述工作结点内仅存在所述预设任务量为1的所述任务时,则对所述任务对应的数据进行拆分;依据所述工作结点、所述调度结点和K个所述采样数据生成所述目标数据筛查规则;获取K个所述采样数据,并确定K个所述采样数据内的所述待选谓词集合中的所有待选谓词;所述工作结点将所述待选谓词迭代加入至所述被选择谓词集合;当所述待选谓词集合为空集时,所述工作结点停止迭代,则确定所述待选谓词集合为空集为第一数据筛查规则;或,当所述待选谓词集合中至少一待选谓词与所述被选择谓词集合相关时,所述工作结点停止迭代,则确定所述待选谓词集合中至少一待选谓词与所述被选择谓词集合相关为第二数据筛查规则。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳计算科学研究院,其通讯地址为:518000 广东省深圳市龙华区民宝路红山6979园区26座9-10层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。