恭喜南华大学田纹龙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南华大学申请的专利一种基于相似数据检测的云存储冗余数据预测方法和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114579362B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210182503.X,技术领域涉及:G06F11/14;该发明授权一种基于相似数据检测的云存储冗余数据预测方法和设备是由田纹龙;刘琪菲;耿雨晴;万亚平;欧阳纯萍;李跃;刘洋;何婷婷设计研发完成,并于2022-02-25向国家知识产权局提交的专利申请。
本一种基于相似数据检测的云存储冗余数据预测方法和设备在说明书摘要公布了:本发明提供了一种基于相似数据检测的云存储冗余数据预测方法和设备,其中方法包括:对云存储数据进行分块,得到数据块;遍历所有数据块,利用哈希算法计算出数据块对应的哈希指纹;利用N‑transform方法计算数据块的相似特征组;根据待预测的数据集的大小,选定m个数据块;遍历提取的所有数据块组成的数据块集合,利用伯努利二项分布循环选取m个初始样本;遍历初始样本组成的初始样本集,基于哈希指纹和相似特征组进行判断,将其中不符合哈希指纹和相似特征组条件的重复数据块添加到基样本中,得到基样本集;遍历待预测的数据集,并基于基样本集确定重复数据和相似数据,从而计算数据冗余的估计值。本发明能够有效地提高云存储冗余数据的去重性能。
本发明授权一种基于相似数据检测的云存储冗余数据预测方法和设备在权利要求书中公布了:1.一种基于相似数据检测的云存储冗余数据预测方法,其特征在于,所述云存储冗余数据预测方法包括:提取数据块的特征阶段:对云存储数据进行分块,得到数据块;遍历所有数据块,利用哈希算法计算出数据块对应的哈希指纹;利用N-transform方法计算数据块的相似特征组;采集样本集阶段:根据待预测的数据集的大小,确定所需数据块数目为m;遍历提取的所有数据块组成的集合,利用伯努利二项分布循环选取m个初始样本;遍历所述初始样本组成的初始样本集,基于所述哈希指纹和所述相似特征组进行判断,将其中不符合哈希指纹和相似特征组条件的重复数据块添加到基样本中,得到基样本集;扫描预测阶段:遍历待预测的数据集,并基于所述基样本集确定重复数据和相似数据,从而计算数据冗余的估计值;遍历所述初始样本组成的初始样本集,基于所述哈希指纹和所述相似特征组进行判断,将其中不符合哈希指纹和相似特征组条件的重复数据块添加到基样本中,得到基样本集,包括:初始化基样本为空,记录基样本中的每个数据块的属性:记录ρi为数据块i的压缩率,如果未压缩,ρi=1;记录basei为数据块i在初始样本中出现冗余的频数,初始化为1;记录counti为数据块i在整个数据集上出现冗余的频数,初始化为0;遍历所述初始样本集,并进行如下判断:如果基样本中存在与所述初始样本集中的当前数据块相同的数据块,相同数据块的哈希指纹也相同,则将当前基样本中的该数据块的属性basei+1;否则,遍历所述基样本,如果所述初始样本集中的当前数据块的相似特征组与基样本中某数据块的相似特征组维度相同,记录相似特征的个数,并计算相似度,如果计算的最大相似度大于设定的相似度阈值,则将该基样本的数据块的basei+相似度;否则将所述初始样本集中的当前数据块添加到基样本中生成基样本集;遍历提取的所有数据块组成的集合,利用伯努利二项分布循环选取m个初始样本,包括:根据伯努利二项分布生成一个随机数: 其中,l为当前数据块集合所包含的数据块数目,n为数据集总数据块的数目,B为基样本;如果k≥1,则选取k个随机数据块添加到初始样本中,如果k=0,则忽略;所述初始样本组成的初始样本集大小为m’,若m’大于m,则随机选取m个所述初始样本组成初始样本集;如果m’小于m,则回到选取初始样本的步骤中,重新选择初始样本,直至得到m个初始样本组成的初始样本集;遍历待预测的数据集,并基于所述基样本集确定重复数据和相似数据,从而计算数据冗余的估计值,包括:遍历待预测的数据集,并进行如下判断:如果基样本中存在与所述初始样本集中的数据块相同的数据块,且相同数据块的哈希指纹也相同,则将当前基样本中对应的数据块的属性counti+1;否则,遍历所述基样本,如果所述初始样本集中的当前数据块的相似特征组与基样本中某数据块的相似特征组维度相同,记录相似特征的个数,并计算相似度,如果计算的最大相似度大于设定的相似度阈值,则将该基样本的数据块的数据块的counti+相似度;否则重新重复前述扫描步骤;其中,N-transform方法具体过程如下:a.初始化N维特征组features为0;b.逐bit遍历当前数据块,并进行如下操作:a记录FP,为该数据块当前bit下的Rabin指纹;b遍历N维特征值features,记录该FP在该维度下的线性映射值transformi,如果该映射值大于当前维度featurei,则将featurei赋值为transformi; 其中,ai和bi为随机预定义数据线性变化,L为数据块长度;将最终N维特征值依次分为x组,每组包含Nx个特征,Nx为整数,对每个分组再次进行Rabin哈希,得到最终的相似特征组SFs;SFx=Rabinfeaturex·i,...,featurex·i+i-1。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南华大学,其通讯地址为:421001 湖南省衡阳市常胜西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。