首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于Shapley值和信息熵的差分隐私合成数据集发布方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥工业大学

摘要:本发明公开了一种基于Shapley值和信息熵的差分隐私合成医疗数据集发布方法,包括:1、获取患者数据集;2、计算患者数据集属性的贡献程度;3、计算患者数据集属性的信息熵值;4、设定指标调节因子;5、计算患者数据集的隐私预算;6、合成差分隐私患者数据集,并实现其发布。本发明能有效解决不能根据数据特点对医疗数据进行个性化隐私预算分配的问题,从而能在确保医疗数据隐私性与可用性的同时,综合考虑用户偏好,实现医疗数据发布。

主权项:1.一种基于Shapley值和信息熵的差分隐私合成数据集发布方法,其特征在于,是按如下步骤进行:步骤1、获取患者数据集D中R条患者数据的n个属性并构成属性集F={f1,f2,...,fi,...,fn},fi表示患者数据集D中的第i个属性,1≤i≤n;n表示属性的数量;步骤2、依次从属性集F中获取若干个属性构成属性子集,从而得到2n个属性子集其中,F′m表示第m个属性子集,令Nm表示F′m中属性总数;0≤m≤2n;步骤3、从属性集F除去Nm个属性后的剩余属性集合记为F″m;将F″m中的每一个属性分别与F′m构成一个新的属性子集,从而得到n-Nm个新的属性子集Sm={Sm,1,Sm,2,...,Sm,j,...,Sm,n-Nm};Sm,j表示第j个新的属性子集;0≤j≤n-Nm;步骤4、根据式1计算F″m中任意第k个属性f″m,k的贡献程度SVf″m,k,即第k个属性f″m,k的Shapley值: 式1中,F\{f″m,k}表示从属性集F除去第k个属性f″m,k后的集合;|F′|表示从属性集F中任取n-1个属性组成的属性子集的个数;vSm,j表示Sm,j的边际贡献值,vF′m表示F′m的边际贡献值;步骤5、令第k个属性f″m,k的值域为Xm,k={Xm,k,1,Xm,k,2,...,Xm,k,l,...,Xm,k,L},其中,Xm,k,l表示第k个属性f″m,k的第l个取值;L表示值域包含的值的个数;numXm,k,l表示患者数据集D中包含Xm,k,l值的个数,计算第k个属性f″m,k的第l个取值Xm,k,l的概率值pXm,k,l=numXm,k,lR×n;根据式2计算第k个属性f″m,k的信息熵值Hf″m,k: 步骤6、设定调节因子α,且0≤α≤1;步骤7、根据式3对第k个属性f″m,k的贡献程度SVf″m,k进行归一化,得到第k个属性f″m,k归一化后的贡献程度SVnorf″m,k:SVnorf″m,k=SVf″m,k-SVmeanFσSVF3式3中,SVmeanF表示属性域F所包含属性的贡献程度的均值,σSVF表示属性域F所包含属性的贡献程度的标准差;步骤8、根据式4对第k个属性f″m,k的信息熵值Hf″m,k进行归一化,得到第k个属性f″m,k归一化后的信息熵值为HnorF:Hnorf″m,k=Hf″m,k-HmeanFσHF4式4中,HmeanF表示属性域F所包含属性的信息熵值的均值,σHF表示属性域F所包含属性的信息熵值的标准差;步骤9、根据式5计算第k个属性f″m,k的隐私预算等级ωm,k,从而得到属性集F中每个属性的隐私预算等级;ωm,k=αSVnorf″m,k+1-αHnorf″m,k5步骤10、根据式6计算患者数据集D的隐私预算∈:∈=expmaxω6式6中,ω表示患者数据集D的属性集F对应的隐私预算等级集合;步骤11、根据式7所示的差分隐私合成方法对患者数据集D进行处理,得到差分隐私合成后的患者数据集MD并发布给查询者: 式7中,Δq表示查询D的结果和D′的结果之间的最大差值,并由式8得到,Laplace表示拉普拉斯分布的噪声;q表示一次查询的结果;Δq=max||qD-qD′||8式8中,D′表示与患者数据集D具有相同属性数量,且相差一条患者数据的患者数据集。

全文数据:

权利要求:

百度查询: 合肥工业大学 基于Shapley值和信息熵的差分隐私合成数据集发布方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。