一种基于强化学习的动态公平联邦学习方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京邮电大学

摘要：本发明提供一种基于强化学习的动态公平联邦学习方法及装置，在一轮联邦训练中，各客户端根据各自的本地数据对服务器下发的模型进行训练，生成本地模型，并计算本地模型的本地训练损失；将本地模型、本地训练损失和本地数据规模上传至服务器进行聚合；在聚合阶段，将本地训练损失作为强化学习状态输入，根据状态及当前策略选择执行动作，根据执行动作和本地规模占比计算聚合权重，基于聚合权重完成该轮联邦聚合；根据当前全局联邦模型准确率设置奖励值，以优化强化学习；重复多轮联邦训练，直至得到最终全局联邦模型。本发明提供的方法能够在保护隐私和较小通信开销基础上，将各本地训练损失作为公平性度量，优化联邦聚合过程，实现公平联邦学习。

主权项：1.一种基于强化学习的动态公平联邦学习方法，其特征在于，所述方法包括以下步骤：在一轮联邦训练中，各客户端根据各自的本地数据对服务器下发的模型进行训练，生成本地模型；计算所述本地模型的本地训练损失；所述本地数据包括设有实际标签的各社交平台上关于公共安全突发事件的文本信息；各客户端将本地数据规模、所述本地模型以及所述本地训练损失上传至所述服务器，基于公平动态调整机制进行联邦聚合，得到初步全局联邦模型；其中，所述本地模型的本地训练损失计算式为：；表示第+1轮联邦训练得到的全局联邦模型在客户端的本地训练损失，；表示客户端的本地数据规模占比；表示第-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作；其中，所述公平动态调整机制根据各客户端的本地训练损失构建强化学习的状态空间，根据状态按照策略选择相应的执行动作；计算各客户端的本地数据规模占比；根据所述本地数据规模占比和所述执行动作确定各客户端的聚合权重；所述聚合权重的计算式为：；表示客户端的聚合权重，；表示客户端的本地数据规模占比；表示第-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作；表示第轮联邦训练得到的全局联邦模型；采用经验回放的方法对所述公平动态调整机制进行训练，根据所述初步全局联邦模型的准确率设置奖励值，以最大化奖励值为目标，优化所述公平动态调整机制；基于上述步骤进行多轮联邦训练，直至满足预设性能要求，得到最终全局联邦模型。

全文数据：

权利要求：

百度查询：北京邮电大学一种基于强化学习的动态公平联邦学习方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种自动开袋装袋装置

下一篇：一种基于增量学习的目标检测方法

相关技术

一种自动开袋装袋装置

一种基于增量学习的目标检测方法

一种多旋翼无人机

一种多自由度砂带机

搭桥式电动汽车换电池用的汽车承载装置

多功能包皮延长恢复器及阴茎增长锻炼器

一种摆动及直线运动执行装置

基于数据分析的信息推送方法、装置、计算机设备及存储介质

存储器结构及其制造方法

防撕破的带撕手保护膜的泡棉产品及其模切方法

基于基节误差的斜齿轮啮合刚度计算方法

一种页面属性获取方法、装置及计算机设备、存储介质

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于强化学习的动态公平联邦学习方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务