首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Flink的流批一体化指标设计方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:浪潮通信信息系统有限公司

摘要:本发明提供一种基于Flink的流批一体化指标设计方法,属于大数据、业务支撑、数据业务技术领域,本发明在已有Kappa架构的基础上,融合流计算和交互式分析双引擎架构。在这个架构中,流计算引擎负责基础指标计算,交互式分析引擎负责指标的按需计算。两者配合,在保证高吞吐、低延迟的同时,快速响应业务需求变化,降低数据重播带来的问题。

主权项:1.一种基于Flink的流批一体化指标设计方法,其特征在于,依据“数据接入-指标计算-指标赋能”的数据流向,主要包括以下3个步骤:1)数据接入分为“数据源-数据清洗转换-数据交换”三个环节,任务是完成实时数据采集并发送到消息队列中;2)指标计算可细分为“实时指标计算-指标存储”两个环节;实时指标计算,采用流计算引擎Flink,实时基础指标先行,实现实时全维度基础指标的计算;指标存储,冷热指标分离存储,根据指标的时效性分为实时指标和非实时指标存储;此外,提供完备的异常保障机制,保证指标的准确性和可靠性;3)指标赋能提供指标服务,赋能应用系统;其中,实时指标计算中的全维度基础指标,全量异步写入非实时指标存储中,配合交互式分析引擎,完成满足业务需求的指标按需计算;只有实时业务场景真正需要的关键指标子集才会同步写入实时指标存储中,支持有温度的指标赋能;所述冷热指标分离存储,根据指标的时效性分为实时指标和非实时指标存储;实时指标存储,为关键指标、热指标、温指标;存储内容包括指标结果和时间戳,存储可配置时间的指标;定义最新的数据为热指标,最近1小时的为温指标,关键指标为业务场景重点关注的指标;非实时指标存储,细分为冷指标、超长时间粒度汇聚、指标OLAP立方体;冷指标为全量历史指标,超长时间粒度汇聚基于冷指标,支持任意时间自由伸缩的指标汇聚;所述异常保障机制,分为如下4部分:1)数据丢失应对;数据接收和清洗转换后,实时推送给消息队列用于实时计算之外,同时批量推送数据以明细文件形式落HDFS持久化,留存源数据;基于消息队列Kafka消费位移机制,提供数据回放,支持指定任意回放位置;留存的明细文件支持全量的数据回放;2)数据乱序迟到应对;依托流计算引擎Flink原生支持watermark水位线机制,基于数据实际发生时记录的事件时间,实现任意数据乱序情况的有效处理;支持双重保障处理迟到数据:(2.1)watermark保证短时间内迟到数据不被丢弃(2.2)旁路计算迟到数据,定时补充指标结果;3)特殊指标应对;满足交换律结合律的指标不需要特殊处理;不满足交换律结合律的指标,需要特殊处理;所述特殊处理:平均数,通过SUMCOUNT间接实现;方差标准差,依赖数据全集,计算单独处理;基数计数,计算单独处理或存储处理,要求存储基数目标值和时间戳;4)高可用;全链路均采用分布式组件;实时计算提供failover机制;Flink提供Checkpoint快照机制,当实时计算作业异常退出时,保证基于退出前的计算结果继续计算,进而提供At-least-OnceExactly-Once高可用保证。

全文数据:

权利要求:

百度查询: 浪潮通信信息系统有限公司 一种基于Flink的流批一体化指标设计方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。