买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华中科技大学
摘要:本发明属于盾构仿真建模领域,涉及一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法。该方法包括:各客户端依据本地的原始数据建立参数化的盾构掘进仿真模型;中心协调器下放强化学习模型至各客户端进行盾构掘进仿真模型参数辨识的强化学习训练;客户端将强化学习训练过程中得到的相关数据进行同态加密后上传至中心协调器;中心协调器选择性地聚合具有更大收敛潜力的客户端模型参数并构建新的全局梯度信息,然后返回最新的模型数据至各客户端;各客户端更新本地模型然后进行强化学习训练得到待定的参数值并进行仿真模拟和迭代训练直至误差在可接受的范围内。本发明对辅助盾构机安全且高效地进行掘进具有重要的作用。
主权项:1.一种基于联邦强化学习的盾构掘进仿真模型参数辨识方法,其特征在于,包括:S1.各客户端根据本地的工况、地质条件、盾构参数以及原始的监测数据,分别初步拟定待辨识的数值模型中的待定参数值,赋予其初始值,建立参数化的盾构掘进仿真模型,并对模型待辨识参数进行灵敏度分析;S2.中心协调器下放强化学习模型至各客户端,各客户端分别建立本地决策模型,并根据各客户端收集到的本地区盾构掘进过程的原始数据和仿真模拟结果建立环境模型,用于模拟当前的状态St;S3.各客户端独立根据当前的状态St确定私有策略,同时根据私有策略选择相应的动作获得下一个状态St+1,并根据目标函数对St+1进行评估,各客户端在状态-动作-奖励-状态的循环中训练各自的模型,同时将强化学习训练过程中得到的模型梯度信息、训练数据数目及其评价结果进行同态加密后上传至中心协调器;S4.中心协调器对各客户端上传的模型梯度信息、训练数据数目及其评价结果进行解密后,选择性地聚合具有更大收敛潜力的客户端模型参数,构建新的全局梯度信息并获得新的强化学习模型数据;S5.中心协调器返回最新的强化学习模型数据至各客户端,各客户端通过融合中心协调器下发的最新的强化学习模型数据更新本地的强化学习模型,根据最新的强化学习模型进行强化学习训练得到待定的参数值,之后进行仿真模拟,并将本地监测数据与仿真结果进行比较同时分析两者之间的误差,重复步骤S3-S5直至误差在可接受的范围内时,所辨识得到的参数值即为模型待辨识参数的最终值;所述环境模型由仿真模拟数据结果与原始监测数据建立,并设目标函数,所述目标函数为: 其中,G为当前待辨识参数值下的目标函数,Zsim为所需观测的某一指标的模型仿真值,Zrea为所需观测的本地监测数据中的某一指标的实测值;下标1、2、3…表示本地监测数据中的监测指标总数;根据所述的目标函数G构建奖励函数r:当目标函数G’G时,r=r+1,当目标函数G’G时,r=r,其中G’为上一步迭代时待辨识参数值下模型的目标函数,G为当前迭代步骤中待辨识参数值下的目标函数;所设置的奖励函数r的初始值为0,训练目的是让奖励函数最大化;将在待辨识的参数取值区间范围内随机选取一个数值作为强化学习模型的一个动作,当r=r+1时,决策模型会根据当前的待辨识的参数值的波动范围∆AmSTm对所有的待辨识参数进行改变以确定下一次待辨识参数的数值,或者,随机变化某一待辨识参数值而固定其他待辨识参数值;当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,在此基础上再重新改变待辨识参数值,直到r=r+1;当r=R时,模型停止训练,R为预设阈值;所述的当前的待辨识参数值的波动范围∆AmSTm具体为,根据各待辨识参数的影响系数,设置N个待辨识参数的变化值∆AmSTm,m=1~N,其中STm是第m个待辨识参数的影响系数,下一步的参数搜索范围会根据影响系数的大小来确定,待辨识参数影响系数越大,之后所设置的参数搜索范围越精细,即∆AmSTm的取值越小;之后,根据奖励函数r进行待辨识参数的改变,具体为:当奖励函数r=r+1时,选取N个待辨识的仿真模型参数值为AmSTm+∆AmSTm,或者,随机变化某一待辨识参数值而固定其他待辨识参数值;当r=r时,决策模型会将当前待辨识的参数值变回上一步的参数值,再在此基础上重新改变待辨识参数值,直到r=r+1;然后将N个待辨识的仿真模型参数值输入到仿真模型中得到新的仿真结果,更新到新的状态St+1并给出奖励r;以新的状态St+1作为输入,采用策略网络π计算每个动作的概率分布,然后根据概率分布随机抽样得到新的动作。
全文数据:
权利要求:
百度查询: 华中科技大学 基于联邦强化学习的盾构掘进仿真模型参数辨识方法系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。