买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:上海英方软件股份有限公司
摘要:本发明公开了一种基于分布式拷贝的大数据备份系统及方法,该系统包括:HADOOP集群,部署HJOB模块,通过HJOB模块与灾备机交互获取文件状态主表,在接收到备份恢复指令时,根据文件状态主表生成待备份待恢复文件状态列表,启动并划分MAPPER任务,通过MAPPER任务根据输入的待备份待恢复文件状态列表中的文件项,向灾备机发送相应的备份文件或文件读取指令;灾备机,部署Node模块,于接收到HADOOP集群节点传输的待备份文件的文件流数据后,通过第二File模块处理文件流写入灾备机,于接收到文件读取指令时,通过第二File模块读取文件流并发送给所述HADOOP集群节点。
主权项:1.一种基于分布式拷贝的大数据备份系统,包括:HADOOP集群,部署HJOB模块,通过所述HJOB模块与灾备机交互获取文件状态主表,在接收到备份指令时,根据文件状态主表生成待备份文件状态列表,启动并划分MAPPER任务以保持HADOOP集群的负载均衡,通过MAPPER任务根据输入的待备份文件状态列表中的文件项,向灾备机发送相应的备份文件,所述文件项为单个HDFS文件;接收到恢复指令时,根据所述文件状态主表生成待恢复文件状态列表,启动并划分MAPPER任务以保持HADOOP集群的负载均衡,向灾备机发送文件读取指令,并于接收到灾备机发送的文件数据后通过第一File模块写入HDFS源文件;灾备机,部署Node模块,于接收到HADOOP集群节点传输的待备份文件的文件流数据后,通过第二File模块处理文件流写入灾备机;于接收到文件读取指令时,通过第二File模块读取文件流并发送给所述HADOOP集群节点;控制机,用于与所述灾备机的Node模块交互,提供各灾备机数据节点的注册,向各灾备机数据节点下发备份规则;所述备份指令与恢复指令均由控制机发送给灾备机的Node模块,再由Node模块发送给所述HJOB模块;所述HJOB模块进一步包括:文件状态主表获取模块,用于通过第一Net模块与灾备机交互获取文件状态主表,其中,所述文件状态主表保存上一次备份的文件状态;文件状态列表生成模块,用于在接收到备份恢复指令时,将需要备份恢复的目录中的文件跟获取的文件状态主表进行对比生成待备份文件状态列表待恢复文件状态列表,其中,所述待备份文件状态列表中包含待备份文件列表,所述待恢复文件状态列表中包含待恢复文件列表;MAPPER启动模块,用于根据待备份文件状态列表待恢复文件状态列表对待备份待恢复文件划分MAPPER任务,启动MAPPER任务,其中,MAPPER任务的输入为待备份文件状态列表或待恢复文件状态列表;所述MAPPER启动模块对待备份待恢复文件按文本行进行split划分,一行代表一个文件,一个文件对应一个MAPPER任务进行数据传输,即一行对应的HDFS文件对应一个MAPPER任务;第一File模块,用于在MAPPER任务的控制下获取待备份文件的文件流通过第一Net模块发送给灾备机;当通过第一Net模块接收到灾备机发送的文件数据后,将接收的文件数据写入HDFS源文件;文件读取指令发送模块,用于通过MAPPER任务向灾备机发送文件读取指令;第一Net模块,用于实现所述HADOOP集群节点与灾备机的网络传输;所述灾备机进一步包括:Node模块,用于提供灾备机的入口,接收HADOOP集群节点传输的待备份文件的文件流数据,并于接收到文件读取指令时,启动第二File模块读取相应的文件流,以通过第二Net模块发送至HADOOP集群节点;第二File模块,用于在所述Node模块接收到HADOOP集群节点传输的待备份文件的文件流时,调用Data模块查询灾备机磁盘空间状态,根据查询结果写入灾备机;在所述Node模块接收到文件读取指令时,根据文件读取指令调用Data模块查询备份文件状态,读取相应的文件流,并通过第二Net模块发送至HADOOP集群节点;第二Net模块,用于实现所述HADOOP集群节点与灾备机的网络传输;Data模块,用于记录灾备机磁盘空间状态、备份文件状态以及备份记录。
全文数据:
权利要求:
百度查询: 上海英方软件股份有限公司 一种基于分布式拷贝的大数据备份系统及方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。