恭喜北京明略昭辉科技有限公司乔智获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京明略昭辉科技有限公司申请的专利基于Spark Streaming的数据同步方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN112069240B 。
龙图腾网通过国家知识产权局官网在2025-02-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202010890529.0,技术领域涉及:G06F16/25;该发明授权基于Spark Streaming的数据同步方法及系统是由乔智;刘建辉;孙军锋;李亚飞;汪月设计研发完成,并于2020-08-29向国家知识产权局提交的专利申请。
本基于Spark Streaming的数据同步方法及系统在说明书摘要公布了:本申请涉及一种基于SparkStreaming的数据同步方法及系统,其中,该数据同步方法包括:增量数据获取步骤,用于基于SparkStreaming获取HBase增量数据并存储至一离散数据流DStream;数据规整化步骤,用于根据HBase的字段映射关系及其规整规则通过ETL处理所述离散数据流DStream中的数据,得到规整后数据;数据写入步骤,用于将所述规整后数据写入至HDFS对应目录中,实现数据同步。通过本申请的数据同步方法及系统,基于SparkStreaming数据流形式增量获取数据,处理数据量小,对HBase集群访问量较小;同时于SparkStreaming数据流准实时更新,处理速度快,耗时较短,实现了HBase数据库准实时增量同步,减少同步过程中数据量并提高工作效率。
本发明授权基于Spark Streaming的数据同步方法及系统在权利要求书中公布了:1.一种基于SparkStreaming的数据同步方法,其特征在于,包括:增量数据获取步骤,用于基于SparkStreaming获取HBase增量数据并存储至一离散数据流DStream;数据规整化步骤,用于根据HBase的字段映射关系及其规整规则通过ETL处理所述离散数据流DStream中的数据,得到规整后数据;数据写入步骤,用于将所述规整后数据写入至HDFS对应目录中,实现数据同步,所述数据写入步骤进一步包括:单目录数据输出步骤,用于通过创建一数据输出类将规整后数据写入到对应目录中;多目录数据输出步骤,用于通过创建一多目录数据输出类将规整后数据写入到对应的多个目录中,数据输出类AppendTextOutputFormat继承自Spark的TextOutputFormat类,多目录数据输出类MultipleAppendTextOutputFormat继承自Spark的MultipleOutputFormat;所述增量数据获取步骤进一步包括:创建数据接收器步骤,用于创建一用于查询HBase数据类的数据接收器;数据获取步骤,用于获取增量数据并存储所述增量数据至所述离散数据流DStream;所述增量数据获取步骤基于一作业限流规则获取HBase获取增量数据,所述作业限流规则设定一最大提取条数,若当前需提取数据条数大于所述最大提取条数,则超过所述最大提取条数的数据延时一设定时间后再提取;所述增量数据获取步骤中,设定所述数据接收器的启动时间间隔和Spark的窗口滑动时间间隔,其中,所述启动时间间隔小于所述窗口滑动时间间隔。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京明略昭辉科技有限公司,其通讯地址为:100089 北京市海淀区北三环西路25号27号楼二层2020室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。