买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海银行股份有限公司
摘要:本发明涉及一种基于作业血缘知识图谱的大数据仓库治理方法,包括以下步骤:采集并预处理大数据仓库的元数据,形成每个作业的唯一标识以及状态表;构建作业血缘知识图谱;构建大数据仓库分层架构,所述大数据仓库分层架构分为六层,数据的传递路径依次为源数据层、贴源层、历史明细层、标准层、基础集市层和应用集市层,且不可逆;基于大数据仓库分层架构实现源数据溯源功能,基于大数据仓库分层架构找出卡批作业,本发明基于跑批作业之间的依赖关系,构建了作业血缘知识图谱以梳理数据仓库内部复杂的加工路径,此外,本发明还实现了问题作业的定位功能等,使治理工作更加高效、有序。
主权项:1.一种基于作业血缘知识图谱的大数据仓库治理方法,其特征在于,包括以下步骤:采集并预处理大数据仓库的元数据,形成每个作业的唯一标识以及状态表;依据每个作业的唯一标识以及状态表,构建作业血缘知识图谱;依据所述作业血缘知识图谱,构建大数据仓库分层架构,所述大数据仓库分层架构分为六层,分别是源数据层、贴源层、历史明细层、标准层、基础集市层和应用集市层,数据的传递路径依次为源数据层、贴源层、历史明细层、标准层、基础集市层和应用集市层,且不可逆;基于大数据仓库分层架构实现源数据溯源功能,方式如下:,其中,G为作业血缘知识图谱,V为作业的集合,E为作业间依赖关系的集合;;其中,Av为作业v的上游所有依赖的作业集合,作业v为在作业集合中指定的作业;为作业v的源数据作业集合;为作业v的入度,即该作业直接依赖的作业数量;Pv为作业v的所有直接依赖的作业集合;p属于Pv;为作业v的所有直接依赖作业Pv的源数据作业的全部集合;依据Av找出指定作业的源数据作业集;基于大数据仓库分层架构找出卡批作业,方式如下:指定待查询作业,获取待查询作业直接依赖的作业集合,将直接依赖的作业集合并入未完成作业集合;按顺序取出未完成作业集合中的作业,若当前取出作业的直接依赖作业集合中任意作业的完成时间都大于当前取出作业的开始执行时间,则表示当前取出的作业即为当前的卡批作业;若当前取出作业的直接依赖作业集合中存在完成时间小于或等于当前取出作业的开始执行时间的作业,则将当前取出作业的直接依赖作业集合中所有满足该条件的作业放入未完成作业集合中;重复上述步骤,直到未完成作业集合中的所有作业均被取出检查,即可找出当前时间的所有卡批作业。
全文数据:
权利要求:
百度查询: 上海银行股份有限公司 一种基于作业血缘知识图谱的大数据仓库治理方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。