Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习的电机自适应控制方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明涉及电机自适应控制方法技术领域,更具体地说,涉及一种基于深度强化学习的电机自适应控制方法及系统,方法包括以下步骤:获取电机运动系统的状态信息;基于所述状态信息,通过深度神经网络近似Q函数;利用创新型深度Q学习算法更新所述深度神经网络;基于更新后的深度神经网络,确定电机控制动作;将所述电机控制动作应用于电机运动系统;在线收集新的状态信息和奖励信息;基于所述新的状态信息和奖励信息,对所述深度神经网络进行在线微调。通过创新的深度Q学习算法,实现了比传统方法更高的控制精度,稳态误差降低至0.05%。采用自适应噪声注入策略和分布式Q学习机制,使得系统能够快速适应负载变化,调节时间缩短至15ms。

主权项:1.基于深度强化学习的电机自适应控制方法,其特征在于,包括以下步骤:获取电机运动系统的状态信息;基于所述状态信息,通过深度神经网络近似Q函数;利用创新型深度Q学习算法更新所述深度神经网络;基于更新后的深度神经网络,确定电机控制动作;将所述电机控制动作应用于电机运动系统;在线收集新的状态信息和奖励信息;基于所述新的状态信息和奖励信息,对所述深度神经网络进行在线微调;所述状态信息包括电机转速、电机转矩、三相电流、、、三相电压、、、转子位置角、绕组温度、定子温度和磁链估计值;所述状态信息经过以下预处理步骤:a采用小波阈值去噪方法,选用db4小波,使用软阈值函数进行5层分解重构;b对每个维度应用Z-score标准化:,其中为原始数据,和分别为该维度的均值和标准差,为标准化后的数据;所述深度神经网络为多层感知机结构,包括:输入层:具有与状态信息维度相等的节点数;隐藏层1:具有256个节点,激活函数为Mish函数;隐藏层2:具有128个节点,激活函数为Mish函数;输出层:具有与动作空间维度相等的节点数,无激活函数;其中,Mish函数定义为:;网络参数初始化采用He初始化方法:,其中为第层的权重矩阵,为该层的输入神经元数量,表示均值为、标准差为的正态分布;所述创新型深度Q学习算法包括基于信息熵的优先经验回放机制,其实现步骤如下:a计算状态的信息熵:,其中为状态下选择动作的概率;b计算样本优先级:,其中为样本优先级,为TD误差,为小正数,为TD误差指数,为状态的信息熵,为小正数,为熵指数;c)根据样本优先级构建优先级树数据结构,用于高效采样;d)从中采样mini-batch进行训练,采样概率与成正比;所述电机控制动作的确定步骤包括:a定义连续动作空间,其中、为d-q轴电压,为开关频率,为磁链虚拟控制变量;b计算网格密度函数:,其中为函数对动作的梯度,为平滑参数;c计算自适应网格点数:,其中为状态的信息熵,为调节参数,和分别为最小和最大网格点数;d)根据和对连续动作空间进行动态离散化;e)在离散化后的动作空间中选择值最大的动作作为控制动作;所述在线微调步骤包括:a)使用滑动窗口策略,保留最近个时间步的样本;b)采用reservoirsampling算法动态更新经验回放池;c)每隔个控制周期进行一次增量训练;d)使用弹性权重整合算法防止灾难性遗忘: ,其中为DQN损失函数,为正则化系数,为Fisher信息矩阵对角线元素和分别为当前模型和旧模型的第个参数;e)利用基于贝叶斯优化的元控制器动态调整深度强化学习控制器的超参数包括学习率、探索率、折扣因子和目标网络更新频率freq;f)元控制器的目标函数为:,其中、、分别为控制性能、能效和稳定性指标,、、为相应权重系数;g)使用高斯过程回归模型建立超参数到目标函数的映射,通过最大化期望改进来选择下一组超参数。

全文数据:

权利要求:

百度查询: 闽西职业技术学院 一种基于深度强化学习的电机自适应控制方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。