恭喜哈尔滨工业大学韦常柱获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜哈尔滨工业大学申请的专利基于强化学习伪谱网格自适应构造的轨迹快速优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117434845B 。
龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311692640.9,技术领域涉及:G05B13/04;该发明授权基于强化学习伪谱网格自适应构造的轨迹快速优化方法是由韦常柱;崔乃刚;孙智力;魏金鹏;浦甲伦设计研发完成,并于2023-12-11向国家知识产权局提交的专利申请。
本基于强化学习伪谱网格自适应构造的轨迹快速优化方法在说明书摘要公布了:一种基于强化学习伪谱网格自适应构造的轨迹快速优化方法,属于飞行器控制技术领域。方法如下:构建飞行器动力学与运动学模型,设置飞行轨迹初值及约束条件,并基于伪谱法构建飞行器轨迹优化问题;计算相邻两配点中点的残差矩阵,并以残差矩阵的二范数作为网络评价方法进行评价;通过DDPG强化学习得到新的Online‑Actor网络对伪谱离散网格进行设计,将连续轨迹优化问题转化为非线性规划问题,并使用序列二次规划方法进行求解。本发明利用强化学习完成神经网络的快速训练,基于神经网络对伪谱离散网格进行快速准确构造,解决了重复迭代带来的求解时间过长的问题,进而完成飞行器轨迹的快速优化。
本发明授权基于强化学习伪谱网格自适应构造的轨迹快速优化方法在权利要求书中公布了:1.一种基于强化学习伪谱网格自适应构造的轨迹快速优化方法,其特征在于:所述方法包括如下步骤:S1:构建飞行器动力学与运动学模型,设置飞行轨迹初值及约束条件,并基于伪谱法构建飞行器轨迹优化问题;S1所述飞行器动力学与运动学模型如下: 式1中: 为r的一阶导数,r为地心距; 为θ的一阶导数,θ为经度; 为的一阶导数,为纬度; 为V的一阶导数,V为飞行器的飞行速度; 为γ的一阶导数,γ为飞行路径角; 为ψ的一阶导数,ψ为飞行航向角;σ为倾侧角;L为气动升力;D为气动阻力;且: 式2中:CLα,Ma为由攻角α和马赫数Ma决定的升力系数;CDα,Ma为由攻角α和马赫数Ma决定的阻力系数;q为动压;Sref为飞行器的参考面积;S2:计算相邻两配点中点的残差矩阵R,并以残差矩阵R的二范数||R||2作为网络评价方法进行评价;所述S2包括如下步骤:S201:将固定飞行器轨迹分为N个区间片段,每一区间的时间为[tk,tk+1],k=1,…,N,各时间区间内配点数量均为[M1,M2…,MN],在单一片段内选择相邻两个配点ti,ti+1的中点,即 S202:定义状态量st为: S203:定义动作量at为:at=[M1,…,MN]4S204:定义回报函数为:rt=-||R||5S205:通过拉格朗日插值方法得到相邻两个配点的中点的状态变量即飞行器地心距、经度、纬度、速度、飞行路径角、航向角,以及相邻两个配点的中点的控制变量即攻角、倾侧角;S206:计算相邻两配点中点的残差矩阵R为: 式6中: 为状态变量;F为式1中的飞行器动力学与运动学模型; 为离散配点中点处的状态变量的近似值; 为离散配点中点处的控制变量的近似值;S207:以残差矩阵R的二范数||R||2作为网络评价方法,即残差矩阵R的二范数||R||2越小,评价越优;S3:通过DDPG强化学习得到新的Online-Actor网络;所述S3包括如下步骤:S301:初始化DDPG强化学习中的智能体,包含四个神经网络,分别为Online-Actor网络μst、Target-Actor网络μ′st、Online-Critic网络以及Target-Critic网络设置Online-Actor网络μst与Target-Actor网络μ′st的参数以及结构均相同;设置Online-Critic网络与Target-Critic网络的参数以及结构均相同;并初始化设计参数[M1,…,MN];S302:设定DDPG强化学习的轮数K,在每一轮中,随机初始化设计参数M1,…MN;随机初始化飞行器状态量指令采用DDPG强化学习算法,训练智能体的参数,并获得训练后智能体所取得的回报函数序列rt={rt1,rt2,...,rtN}以及对应的设计参数序列;S303:通过前向差分计算设计参数序列中每个参数的导数值 式7中: 代表第ε个设计参数Mε,ε=1,…,N的设计序列中第i,j个设计参数的奖励函数的导数值;S304:基于式7更新回报函数中的设计参数: 式8中: 为学习率;S305:基于式8更新的设计参数[M1,…,MN],并返回S302;待设计参数[M1,…,MN]调节过程收敛后,进入S306;S306:基于S304得到的设计参数[M1,…,MN]给出设计完成的回报函数;基于回报函数,返回S302,设定DDPG强化学习的轮数K=1,通过DDPG强化学习得到新的Online-Actor网络μst;S4:通过S3所训练出的网络对伪谱离散网格进行设计,将连续轨迹优化问题转化为非线性规划问题,并使用序列二次规划方法进行求解。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。