买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河南大学
摘要:本发明公开了一种基于延迟的Spark任务资源交错的调度策略,首先,考虑到最长完成时间的Stage会影响整个流水线作业的完成,按照历史数据中任务完成时间长短交错执行此阶段,来达到交错利用系统资源的目的。之后,将执行任务划分为CPU密集型和非CPU密集型包括网络IO和磁盘IO两个阶段,当非CPU密集型阶段任务进行数据获取时,将与其并行的任务在适当时间进行调度,来达到避免资源争用,减少作业完成时间的目的。最后,在Spark2.4.0上实现了RPTS,并进行了大量的实验来评估性能。本发明以流水线的方式调度并行任务,提高了集群的资源利用率,进而最小化作业执行时间。
主权项:1.一种基于延迟的Spark任务资源交错的调度策略,其特征在于,包括:步骤1:根据各计算阶段的并行情况,按照不同的路径进行分割,得到多个分隔路径,根据每个节点中可并行计算阶段分配情况进行遍历,得到节点中属于不同分割路径下的任务集合;步骤2:当计算阶段Si的下游混洗阶段与Si不在同一分隔路径时,通过分析日志文件中的DAG找到Si的下游混洗阶段对应的计算阶段Sk,得到Si的延迟调度时间区间其中是指Sk的开始时间,是指Sk的父计算阶段中最大完成时间;步骤3:对得到的分隔路径中的各计算阶段按照执行时间进行降序排列,优先对执行时间长的计算阶段进行调度;步骤4:按照计算阶段对任务进行分组,并按照执行时间对各组中的任务进行降序排列和升序排列,各目标节点优先执行执行时间最长的计算阶段的任务,且按照长短时间任务交替执行的方式进行;步骤5:对于与执行时间最长的计算阶段并行的其他计算阶段对应的任务执行,进行一定时间的延迟,延迟时间初始为其中Ti表示当前计算阶段的执行时间,Ti+1表示下一并行计算阶段的执行时间;步骤6:按照步骤3和步骤4中的顺序进行每个计算阶段在每个目标节点上对应任务的执行,并推迟排序后处于后方的任务的执行,且任务的延迟时间在[0,Ti-Ti+1-Ti#j]范围内,Ti#j表示当前计算阶段中第j个任务的执行时间;步骤7:确保执行时间最长的计算阶段中任务执行后,把其他任务中的数据获取时间作为初始值的累加计数,从而使每个任务的延迟调度时间都不同,并不断进行反馈来调整任务的延迟调度时间。
全文数据:
权利要求:
百度查询: 河南大学 一种基于延迟的Spark任务资源交错的调度策略
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。