首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于Flink的多层次协同重配置流处理方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:哈尔滨工业大学

摘要:基于Flink的多层次协同重配置流处理系统及其处理方法,属于计算机数据处理技术领域。为优化流处理系统在面对数据倾斜,负载波动,资源变化等复杂情况时的性能。本发明包括在Flink流处理平台的原有组件的基础上,增加指标监控器、协同重配置管理器、重配置协调器、重分区执行器、子任务配置管理器,将原有的协同自适应调度器修改为水平弹性执行器、原有的资源槽分配器修改为重调度执行器;指标监控器连接协同重配置管理器和子任务配置管理器,协同重配置管理器连接重配置协调器,重配置协调器分别连接重分区执行器、水平弹性执行器、重调度执行器、子任务配置管理器。本发明优化了流处理系统。

主权项:1.一种基于Flink的多层次协同重配置流处理方法,依托于基于Flink的多层次协同重配置流处理系统实现,所述基于Flink的多层次协同重配置流处理系统在Flink流处理平台的原有组件的基础上,增加指标监控器1、协同重配置管理器2、重配置协调器3、重分区执行器4、子任务配置管理器7,将原有的协同自适应调度器修改为水平弹性执行器5、原有的资源槽分配器修改为重调度执行器6;所述重分区执行器4、水平弹性执行器5、重调度执行器6构成重配置执行模块;所述指标监控器1连接协同重配置管理器2、子任务配置管理器7,所述协同重配置管理器2连接重配置协调器3,所述重配置协调器3分别连接重分区执行器4、水平弹性执行器5、重调度执行器6、子任务配置管理器7;其特征在于,包括如下步骤:S1、构建最小化迁移开销的多层次协同控制策略;步骤S1构建最小化迁移开销的多层次协同控制策略的具体方法包括如下步骤:S1.1、指标监控器监控集群数据,对设定的阈值指标做出检查,判断集群指标是否违反SLAs约束,判断为否,则返回对设定的阈值指标做出检查步骤,判断为是,则进一步判断集群指标的速度波动是否超标;S1.2、对于速度波动是否超标的判断,判断为否,则从指标监控器获取过载节点集合,判断为是,则执行基于计算资源感知的流应用弹性策略调整并行度,然后返回对设定的阈值指标做出检查步骤;S1.3、对于步骤S1.2获取的过载节点集合进行是否仍然存在过载节点的判断,判断为否,则返回对设定的阈值指标做出检查步骤,判断为是,则执行基于细粒度异步迁移的流分区策略对节点实例进行均衡,然后进一步判断节点是否仍然过载;S1.4、对于步骤S1.3节点是否仍然过载的判断,判断为否,则返回对设定的阈值指标做出检查步骤,判断为是,则执行最小化通信开销的负载均衡任务重调度策略进行重配置,如是循环直至集群负载均衡程度到达用户设定的阈值范围内;S2、构建基于计算资源感知的流应用弹性策略;步骤S2构建基于计算资源感知的流应用弹性策略的具体方法包括如下步骤:S2.1、对水平弹性执行器获取的集群指标数据是否为空值进行判断,判断为否,则读取用户配置、加载并行度配置,并将并行度更新到所有算子,输出应用拓扑;S2.2、对于水平弹性执行器获取的集群指标数据是否为空值进行判断,判断为是,则表示当前为重配置情况下,则获取当前周期的输入速度并计算调整比例,调整原算子并行度并计算所有算子并行度,输出应用拓扑;S3、构建基于细粒度异步迁移的流分区策略;步骤S3构建基于细粒度异步迁移的流分区策略的具体方法包括如下步骤:S3.1、在候选迁出虚拟实例集合V中确定候选迁移键值,作为候选迁出实例集合Om;S3.1.1、重分区执行器获取候选迁出虚拟实例集合V的过载实例、过载阈值;S3.1.2、上游算子获取下游每个分区中键值的总频率,同时以虚拟实例的形式统计出数据流中的候选迁移键值v,并使用HyperLogLog算法统计出下游每个实例中包含的状态量fv、sv,其中fv为候选迁移键值v的频率,sv为候选迁移键值v的迁移开销;S3.1.3、按照fvsv从高到低的顺序对虚拟实例排序;S3.1.4、判断是否有节点负载超出阈值,判断为是,迁移虚拟实例,将节点负载降低至阈值以下;S3.1.5、判断为否,则输出候选迁出实例集合Om;S3.2、确定候选迁移键值,应用路由表更新算法更新下游分区的路由,将开销大的候选迁移键值所在的虚拟实例迁移到轻载的实例中,输出新的路由表;S3.2.1、重调度执行器获得候选迁出虚拟实例集合V,候选迁出实例集合Om;S3.2.2、按照fvsv对候选迁出虚拟实例集合V降序排列,按照算子实例的负载对候选迁出实例集合Om升序排列;S3.2.3、判断任选实例和节点检测键值迁入后是否出现不均衡、过载现象,判断为是,则计算路由表,判断为否,则继续进行下一组的判断;S3.2.4、统计新的路由表Hnew;S4、构建最小化通信开销的负载均衡任务重调度策略;步骤S4构建最小化通信开销的负载均衡任务重调度策略包括如下步骤:S4.1、定义最大迁移开销的、最大负载距离的约束条件;S4.2、遍历拓扑,计算判断将算子记入并置组集合是否降低网络开销:tjj'表示在ΔT内从某一子任务j到子任务j'的输出速率,要确定将算子实例对Ti,Tj加入并置组集合是否有助于降低整体网络开销,的值应当超过avgTj·SF,其中avgTj是所有上游算子实例向当前实例输入速率的平均值,SF是一个得分因子,SF设置为1表示将考虑从该上游算子实例接收超过平均值的输入,SF设置为2表示将考虑从该上游算子实例接收超过平均值2倍的输入,判断为是,则继续步骤S4.3,判断为否,则继续步骤S4.2直至遍历完成拓扑中的所有算子后即终止;S4.3、确定调度单元:首先将并置组集合进行处理,形成最少数量的集合,之后根据设定的最大迁移开销以及最大负载距离将并置组集合拆分为符合条件的调度单元,拆分策略采用贪心策略将并置组集合划分为满足最大迁移开销以及最大负载距离的若干子集,得到新出现的并置组;S4.4、改进并置组:对新出现的并置组,根据负载,确定新方案中的并置位置,具体为对于先前未置于同一节点,但现在数据交换量更大的算子实例对,按数据交换量从大到小将算子实例对分配到负载更低的节点上;S4.4、求解得到混合整数线性规划问题MILP:求解该受约束的混合整数线性规划问题,并计算所得分配的负载距离,如果负载距离大于预先定义的最大负载距离maxLD,那么通过减小最大单元负载maxUL形成更多分区;S5、基于Flink的多层次协同重配置流处理系统处于稳定状态,指标监控器周期性从集群获取监控数据,并对设定的阈值指标做出检查,当某项指标过载时触发协同重配置管理器;S6、协同重配置管理器从指标监控器获取集群相关指标,并根据步骤S1的策略从各重配置执行模块获取备选方案,选出合适的方案对集群配置进行优化;S7、协同重配置管理器将重配置选项发送到重配置协调器;S8、重配置协调器根据所需的重配置选项调用对应重配置执行模块,根据步骤S2-S4的策略开始对分区进行优化;S9、重配置执行模块与子任务配置管理器协作完成对数据流分区的优化,基于Flink的多层次协同重配置流处理系统恢复稳定状态,等待触发下次重配置。

全文数据:

权利要求:

百度查询: 哈尔滨工业大学 基于Flink的多层次协同重配置流处理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。