恭喜上海浪潮云计算服务有限公司周永进获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜上海浪潮云计算服务有限公司申请的专利一种基于两层时间标识的数据湖数据增量消费方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115470223B 。
龙图腾网通过国家知识产权局官网在2025-06-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211070114.4,技术领域涉及:G06F16/23;该发明授权一种基于两层时间标识的数据湖数据增量消费方法是由周永进;颜亮;李国涛;秦雪娇设计研发完成,并于2022-09-02向国家知识产权局提交的专利申请。
本一种基于两层时间标识的数据湖数据增量消费方法在说明书摘要公布了:本发明公开一种基于两层时间标识的数据湖数据增量消费方法,涉及数据湖技术领域,包括数据写入数据湖和查询数据湖中的数据两个阶段;在数据写入数据湖阶段,需要:创建增量表,启动时间服务器生成时间戳来作为写入数据的时间标识,生成多个空文件,将有时间标识的数据写入空文件,并在文件名称中增设时间戳;在查询数据湖中的数据阶段,需要:指定待消费的增量表、起始消费的时间戳、每次消费的时间范围,判断增量表是否支持增量查询,在支持时解析SQL语句,生成Job,获取时间戳字段,进而过滤增量表,获取满足要求的文件存储路径。本发明可以快速定位数据的存储路径,实现数据的增量查询,解决数据进入数据湖后无法进行增量消费的缺陷。
本发明授权一种基于两层时间标识的数据湖数据增量消费方法在权利要求书中公布了:1.一种基于两层时间标识的数据湖数据增量消费方法,其特征在于,所述方法包括数据写入数据湖和查询数据湖中的数据两个阶段; 1在数据写入数据湖阶段, 1.1根据数据的表结构信息,在“metastore”中创建增量表, 1.2获取本批次数据,启动一个线程作为时间服务器,客户端通过时间服务器操作系统的本地时间,生成一个时间戳Ti,时间戳Ti作为本批次数据写入数据湖的时间标识, 1.3预估本批次数据包含的数据量,创建Y个文件,生成的文件为Parquet格式,命名规则为:随机字符串+时间戳+本次写入文件数量序列; 1.4根据文件个数划分本批次数据,并对应写入到Y个文件中,数据写入文件的过程中,在文件的页脚写入数据统计信息,所述数据统计信息包括该文件包含的数据量、列存储的最大值信息和最小值信息,在文件的页眉写入布隆索引, 1.5本批次数据全部写入数据湖后,将本批次数据的写入作为Log记录到commit文件中; 2在查询数据湖中的数据阶段, 2.1通过执行set方法指定需要消费的增量表、起始消费的时间戳T0、每次消费的时间范围between_time, 2.2判断步骤2.1中被指定的增量表是否支持增量查询,若支持,则继续执行步骤2.3, 2.3解析SQL语句,生成Job,在Job中获取时间戳字段“_commit_time_”的值,即起始消费的时间戳T0, 2.4通过时间戳T0过滤当前增量表,获取满足大于时间戳T0的文件的存储路径,多个文件的存储路径形成文件lists[]数组,将文件lists[]数组返回给Job,以生成执行的task任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海浪潮云计算服务有限公司,其通讯地址为:200072 上海市静安区江场三路238号411室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。