买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:内蒙古工业大学
摘要:本申请涉及数据隐私保护技术领域,公开了一种基于本地差分隐私的非离散数据生成模型的方法和装置,针对机器学习分析技术在实际应用时的数据隐私安全问题,用差分隐私并行组合性质和差分隐私Laplace机制完成了针对非离散数据的保护,结合了GRU‑SeqGAN模型完成了非离散数据的仿真数据生成工作;针对SeqGAN模型在生成非离散短序列数据的噪声仿真数据可用性低的问题,提出了针对生成器优化的GRU‑SeqGAN模型,解决了原数据因数据种类分类后的子数据集数量差别大导致的类别不平衡问题,也提高了生成数据的整体可用性。
主权项:1.一种基于本地差分隐私的非离散数据生成模型的方法,应用于学业预警,其特征在于,包括:获取多个原始数据集,其中原始数据集的类别、比例不同;根据多个原始数据集的类别,分别按照差分隐私加噪策略进行差分加噪,得到多个加噪数据;采用分批次训练策略将多个所述加噪数据输入GRU-SeqGAN中,以生成相同数量的不同类别的仿真数据;对仿真数据进行打乱汇总,得到最终数据结果;所述获取多个原始数据集的步骤,包括:获取真实数据,其中,所述真实数据为个人身份敏感信息;对所述真实数据进行脱敏和整理,并删除有空缺的行,得到第一原始数据;获取第一原始数据的类别,并按照类别将第一原始数据划分为多个原始数据集;所述根据多个原始数据集的类别,分别按照差分隐私加噪策略进行差分加噪,得到多个加噪数据的步骤,包括:确定隐私预算值与敏感度值;基于Laplace分布计算随机噪声,其中,计算公式为: ;其中,fx|μ,b表示Laplace随机噪声,μ表示Laplace分布的数学期望,b是制度参数,且随机噪声需要满足ε-差分隐私,表达公式为: ;其中,Δf表示敏感度值,ε表示隐私预算值;获取Laplace加噪的混淆值;构造不同类别的查询函数以获取不同类别的原始数据集,且在获取过程中,将所述混淆值加入原始数据集中,得到加噪数据,其中,将所述混淆值加入数据集中的表达公式为: M(D)=fD+fx|μ,b; 其中,M(D)表示加噪数据,fD表示查询函数,fx|μ,b表示Laplace随机噪声;所述采用分批次训练策略将多个所述加噪数据输入GRU-SeqGAN模型中,以生成相同数量的不同类别的仿真数据的步骤,包括:获取每个加噪数据的类别信息;按照类别信息,按照预设数量规则分别将每个加噪数据输入GRU-SeqGAN模型以进行训练;对训练后的加噪数据进行汇总、随机打乱,得到带有标签的相同数量的不同类别的仿真数据;所述对训练后的加噪数据进行汇总、随机打乱,得到带有标签的相同数量的不同类别的仿真数据的步骤之后,还包括:将样本数据与仿真数据作为训练样本输入判别器中,以进行预训练,得到判别概率,其中,所述GRU-SeqGAN模型包括生成器和判别器,所述生成器用于生成样本数据,所述判别器用于判断输入的训练样本是来自仿真数据还是生成器的样本数据;基于蒙特卡洛搜索将所述判别概率作为奖励,通过策略梯度指导生成器更新,并使生成器与判别器相互博弈,循环交替,当所述生成器与判别器达到纳什均衡点时,生成相应类别数据。
全文数据:
权利要求:
百度查询: 内蒙古工业大学 基于本地差分隐私的非离散数据生成模型的方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。