买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:南方电网数字电网研究院有限公司;中国南方电网有限责任公司;中国科学院信息工程研究所
摘要:本发明公开了一种基于聚类匿名化与差分隐私保护的异构用电数据发布方法,涉及信息技术安全领域,以实现对异构用电数据进行隐私保护的目的,将聚类分析问题转化为分类问题,利用类标签对原始数据的聚类结构同时进行泛化匿名机制和加噪处理后,发布满足∈‑差分隐私保护的电力交易数据集,实现了灵活的隐私保护聚类分析,提升发布数据用于聚类分析时的准确性,同时保证了多种类型数据的隐私性和可用性,为用电数据分析提供可靠的数据。
主权项:1.一种基于聚类匿名化与差分隐私保护的异构用电数据发布方法,其特征在于,包括以下步骤:根据数据使用者的聚类分析请求,对原始数据集D中的原始用电数据进行聚类处理,得到具有类标签的标签数据集D*,标签数据集D*包括多个原始数据记录;对标签数据集D*中的数值型属性、分类型属性、集值型属性分别进行泛化处理;对集值型属性进行泛化处理时,其泛化处理产生2t-1个组,其中t为集值型属性对应的分类树中含有的子节点数;对于集值型属性,验证由拉普拉斯机制产生的噪声大小是否大于一阈值,如果分组出的子分区的噪声大小大于一阈值,则子分区将被保留,否则子分区被修剪;泛化处理后,计算任意属性和类标签之间的信息增益其中ΩClass表示属性的域,Dg表示属性值泛化为g的数据记录集合,表示属性值泛化为包含类标签的数据记录集合;对泛化处理后的数据进行以下匿名处理:按照预定义的分类树对分类型属性数据进行分组,利用拉普拉斯机制对集值型属性数据添加噪声,利用指数机制对数值型属性数据添加噪声,确保数据满足差分隐私,得到匿名数据集D′;利用指数机制对数值型属性数据添加噪声的方法为:通过动态生成或展开相应的分类树,概率性地处理数值型属性,计算数值划分范围内各属性值的效用分数,利用指数机制选择一个属性值g作为数值划分s的概率其中,Is表示在划分的分组p范围内的属性值集合,Δq表示查询函数敏感度,∈表示隐私预算参数;通过在匿名数据集D′上删除任意一条数据记录并添加噪声后获得满足差分隐私的查询集,计算上述查询集与原始数据集的真实查询集的相似度,当该相似度大于0时,发布满足差分隐私保护的数据集给所述数据使用者。
全文数据:
权利要求:
百度查询: 南方电网数字电网研究院有限公司 中国南方电网有限责任公司 中国科学院信息工程研究所 基于聚类匿名化与差分隐私保护的异构用电数据发布方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。