首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种数据迁移方法及装置 

申请/专利权人:中国农业银行股份有限公司

申请日:2020-12-31

公开(公告)日:2024-07-05

公开(公告)号:CN112650736B

主分类号:G06F16/21

分类号:G06F16/21;G06F16/215

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2021.04.30#实质审查的生效;2021.04.13#公开

摘要:本发明提供的数据迁移方法及装置,先梳理各个源数据库中属于同一个逻辑表的物理数据表,从而删除同一逻辑表对应的冗余物理数据表,然后,在单个源数据库内分逻辑表并行迁移,不同源数据库之间串行迁移,从而保证迁移性能和迁移准确性。Spark计算引擎是基于内存计算的大数据并行计算框架,该方案充分利用Spark内存计算的优势,充分发挥了分布式数据库和系统的高效特点,通过多个节点在内存中并行运算,提高了数据迁移的效率。而且,该方案使用Spark计算引擎做数据清洗时,只需业务人员提供相应的SQL语句便能快速完成对数据的清洗处理,人工成本低。

主权项:1.一种数据迁移方法,其特征在于,包括:基于Spark计算引擎梳理各个源数据库中属于同一逻辑表的所有物理数据表,并删除冗余数据,得到同一个所述逻辑表对应的待迁移物理数据表;对于任一源数据库,基于Spark计算引擎并行迁移不同逻辑表中的待迁移物理数据表,直到所述源数据库中属于同一逻辑表的待迁移物理数据表迁移完,继续迁移下一个源数据库中属于所述同一逻辑表的待迁移物理数据表;其中,所述基于Spark计算引擎并行迁移不同逻辑表中的待迁移物理数据表,直到所述源数据库中属于同一逻辑表的待迁移物理数据表迁移完,包括:对于并行迁移的不同逻辑表中的任一逻辑表,均执行以下步骤:将所述源数据库中存储的属于所述任一逻辑表的各个待迁移物理数据表的配置信息存储至待迁移物理数据队列中;当根据所述表配置信息确定所述待迁移物理数据表的总存储量超过预设阈值时,并行读取所述待迁移物理数据表中不同数据分片内的待迁移数据,其中,所述数据分片是将所述待迁移物理数据表中的数据按预设表字段划分得到;当根据所述表配置信息确定所述待迁移物理数据表中存在存储量倾斜的数据分片时,将所述存储量倾斜的数据分片内的数据打散,并行读取所述数据分片内不同的待迁移数据;将同一所述待迁移物理数据表中的数据集按照指定表字段进行分割得到至少一个数据块,且在目标数据库中目标数据表中为每个所述数据块设置一个分区,且每个分区具有一个分区标识;将读取的待迁移数据转换为目标格式数据,所述目标格式数据中包括与各个所述数据块相匹配的分区标识;分别统计每个所述分区标识对应的所述目标格式数据的数量,得到每个所述分区标识对应的待迁移分区数据统计值;针对任一所述分区标识,如果所述分区标识对应的已迁移分区数据统计值大于或等于所述待迁移分区数据统计值,确定所述分区标识对应的待迁移数据不需要迁移;如果所述分区标识对应的已迁移分区数据统计值小于所述待迁移分区数据统计值,将包含所述分区标识的目标格式数据写入所述目标数据表中与所述分区标识相匹配的分区中;重复以上步骤直到所述待迁移物理数据队列为空,所述目标数据库为Hive数据库。

全文数据:

权利要求:

百度查询: 中国农业银行股份有限公司 一种数据迁移方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。