首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于强化学习的动态公平联邦学习方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京邮电大学

摘要:本发明提供一种基于强化学习的动态公平联邦学习方法及装置,在一轮联邦训练中,各客户端根据各自的本地数据对服务器下发的模型进行训练,生成本地模型,并计算本地模型的本地训练损失;将本地模型、本地训练损失和本地数据规模上传至服务器进行聚合;在聚合阶段,将本地训练损失作为强化学习状态输入,根据状态及当前策略选择执行动作,根据执行动作和本地规模占比计算聚合权重,基于聚合权重完成该轮联邦聚合;根据当前全局联邦模型准确率设置奖励值,以优化强化学习;重复多轮联邦训练,直至得到最终全局联邦模型。本发明提供的方法能够在保护隐私和较小通信开销基础上,将各本地训练损失作为公平性度量,优化联邦聚合过程,实现公平联邦学习。

主权项:1.一种基于强化学习的动态公平联邦学习方法,其特征在于,所述方法包括以下步骤:在一轮联邦训练中,各客户端根据各自的本地数据对服务器下发的模型进行训练,生成本地模型;计算所述本地模型的本地训练损失;所述本地数据包括设有实际标签的各社交平台上关于公共安全突发事件的文本信息;各客户端将本地数据规模、所述本地模型以及所述本地训练损失上传至所述服务器,基于公平动态调整机制进行联邦聚合,得到初步全局联邦模型;其中,所述本地模型的本地训练损失计算式为: ; 表示第+1轮联邦训练得到的全局联邦模型在客户端的本地训练损失,;表示客户端的本地数据规模占比;表示第-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作;其中,所述公平动态调整机制根据各客户端的本地训练损失构建强化学习的状态空间,根据状态按照策略选择相应的执行动作;计算各客户端的本地数据规模占比;根据所述本地数据规模占比和所述执行动作确定各客户端的聚合权重;所述聚合权重的计算式为: ; 表示客户端的聚合权重,;表示客户端的本地数据规模占比;表示第-1轮联邦训练在所述公平动态调整机制中根据状态选择的执行动作;表示第轮联邦训练得到的全局联邦模型;采用经验回放的方法对所述公平动态调整机制进行训练,根据所述初步全局联邦模型的准确率设置奖励值,以最大化奖励值为目标,优化所述公平动态调整机制;基于上述步骤进行多轮联邦训练,直至满足预设性能要求,得到最终全局联邦模型。

全文数据:

权利要求:

百度查询: 北京邮电大学 一种基于强化学习的动态公平联邦学习方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。