买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州安那其科技有限公司
摘要:本发明提出了一种基于任务链和分治法的海量数据汇总方法及系统,属于数据处理技术领域;所述方法包括:根据预设的划分规则,将待处理的海量原始数据集分割为多个独立的数据子集,每个数据子集代表一个子任务;基于数据的关联性以及处理顺序,将所述子任务按照顺序进行连接,形成任务链;对任务链中的每个子任务分别进行并行处理,获得所述数据子集的汇总结果;通过合并算法将数据子集的汇总结果进行整合,获得整个数据集的全局汇总结果。通过将海量原始数据集合理划分成多个独立的数据子集,并形成任务链,能够在分布式计算环境中实现高效的并行处理,极大地缩短数据汇总的时间周期。
主权项:1.一种基于任务链和分治法的海量数据汇总方法,其特征在于,所述方法包括:S1、根据预设的划分规则,将待处理的海量原始数据集分割为多个独立的数据子集,每个数据子集代表一个子任务;S2、基于数据的关联性以及处理顺序,将所述子任务按照顺序进行连接,形成任务链;S3、对任务链中的每个子任务分别进行并行处理,获得所述数据子集的汇总结果;S4、通过合并算法将数据子集的汇总结果进行整合,获得整个数据集的全局汇总结果;所述S4,包括:S41、根据数据类型和汇总任务的具体需求,进行合并算法选择,并明确合并算法的具体实现细节;S42、创建用于存储全局汇总结果的数据结构,完成所有子任务的处理后,从各个计算节点收集各个子集的汇总结果,将其传输到主控节点或指定的合并节点;S43、执行合并算法,按照预设的合并规则逐步将各个子集的汇总结果整合起来,形成完整的全局汇总结果;S44、对合并后的全局汇总结果进行一致性校验,若存在精度损失或偏差过大,则对合并算法进行微调优化,进行二次合并;S45、根据合并过程中的性能表现和结果质量,收集反馈信息,根据反馈信息对合并算法和数据处理流程进行持续优化;所述S1,包括:S11、将海量原始数据集划分为多个分区,对每个分区内的数据进行预处理,预处理完成后将每个分区内的数据进行汇总,形成预处理后完整的数据集;S12、根据数据特性和计算资源,预设分治规则,根据预设的分治规则,执行数据分割操作,将原始数据集划分为多个独立的数据子集;S13、将每个生成的数据子集定义为一个独立的子任务,所述每个子任务在分布式计算环境中作为一个单独的工作单元执行;所述S12,包括:利用统计方法和机器学习算法对海量原始数据集进行特征提取,对数据的关键维度和异常值进行识别;对数据集中各元素之间的依赖关系进行分析,结合当前可用的计算资源和网络状况,评估不同分割策略对资源的需求和潜在的性能瓶颈;基于数据特性,设计多维度分割策略,根据实时处理性能和数据流变化动态调整分割粒度;利用启发式算法或强化学习算法,预测并优化分割后的数据子集在分布式环境中的负载分布;在数据分割前,采用并行计算对数据进行预处理;根据预设的分治规则和实时分析的数据特性,应用智能分割算法对预处理后的数据进行分割;为每个生成的数据子集创建独立的封装文件,并生成索引机制;通过仿真或小规模测试,评估分割后的数据子集在分布式计算环境中的处理效率、资源利用率和子任务间的独立性;根据评估结果,对分治规则和分割策略进行迭代优化,并将优化后的分治规则和分割策略纳入知识库。
全文数据:
权利要求:
百度查询: 杭州安那其科技有限公司 一种基于任务链和分治法的海量数据汇总方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。