首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种微重力环境下跳跃式探测器的路径规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学宁波研究院

摘要:本发明涉及一种微重力环境下跳跃式探测器的路径规划方法,采用无模型的深度Q网络强化学习方法,将跳跃式探测器的动力学建模难以与地面碰撞过程相互作用的复杂问题抽象简化,在进行路径规划任务时使跳跃式探测器具有自主性,在受到干扰的情况下根据跳跃式探测器的当前位置进行路径重新规划。

主权项:1.一种微重力环境下跳跃式探测器的路径规划方法,其特征在于,包括:步骤1、按照目标小天体的局部引力场和地形信息,在Bullet物理引擎中定义目标小天体的环境数据信息,建立目标小天体表面的地面模型;步骤2、在Bullet物理引擎中搭建跳跃式探测器的多刚体模型;并设置跳跃式探测器的初始状态向量,所述初始状态向量包含跳跃式探测器的初始位置和初始姿态;步骤3、搭建DQN神经网络模型,所述DQN神经网络模型基于探测器强化学习环境进行训练,所述探测器强化学习环境是采用gym框架建立的包括所述多刚体模型和所述地面模型的探测器强化学习环境,所述探测器强化学习环境包括包含跳跃式探测器动作的动作空间、包含跳跃式探测器状态向量的状态空间以及奖励函数,训练过程中,以跳跃式探测器初始状态向量为当前状态向量作为DQN神经网络模型的输入,所述DQN神经网络模型输出下一个动作,所述Bullet物理引擎根据下一个动作和当前状态向量生成下一个状态向量,并计算当前状态向量与下一个动作对应的奖励函数,并利用奖励函数对DQN神经网络模型进行更新,随后将下一个状态向量作为更新后的DQN神经网络模型的输入,进行迭代循环训练,并保存训练后的DQN神经网络模型;其中,状态空间为跳跃式探测器的质心三维坐标、质心三维速度、三维姿态角和三维姿态角速度组成的十二维向量,式中,表示为跳跃式探测器的三维坐标,表示为跳跃式探测器的质心三维速度,表示为跳跃式探测器的三维姿态角,表示为跳跃式探测器的三维姿态角速度;所述步骤3中的动作空间为跳跃式探测器的单次跳跃或翻滚动作的封装,所述跳跃式探测器的单次跳跃或翻滚动作表现为三个动量飞轮设定步长的输出转矩序列,当三个动量飞轮的输出转矩为零时,跳跃式探测器表现为等待动作,而每个动量飞轮的输出转矩序列分别表现为4个选择动作,4个选择动作包括跳跃式探测器的向前翻滚动作、向后翻滚动作、向前跳跃动作、向后跳跃动作,因此,所述动作空间包括三个动量飞轮的12个选择动作和1个等待动作,所述动作空间表示为:;所述奖励函数包括到达目标位置的目标位置奖励函数、时间最优约束函数和能量最优约束函数,其中,所述目标位置为预先定义的,所述目标位置奖励函数表达式为: ; ; ;式中,为当前时间步,为前一时间步,表示为跳跃式探测器的目标位置的三维坐标;表示为跳跃式探测器当前时间步的质心三维坐标,表示为跳跃式探测器前一时间步的质心三维坐标;所述时间最优约束函数的表达式为: ;所述能量最优约束函数基于跳跃式探测器消耗的能量比值,所述跳跃式探测器消耗的能量计算公式为,式中,表示为跳跃式探测器的三个动量飞轮施加的转矩参数,表示为跳跃式探测器的角速度;表示为平均时间步长;所述能量最优约束函数的表达式为: ;式中,为奖励的缩放因子,为动作空间中跳跃式探测器的翻滚动作、跳跃动作和等待动作;为翻滚动作和跳跃动作中消耗能量的比值;在DQN神经网络模型训练的过程中,根据探测任务需求的侧重点将目标位置奖励函数、时间最优约束函数和能量最优约束函数进行组合,,式中,为目标位置奖励函数的缩放权重,为时间最优约束函数的缩放权重,为能量最优约束函数的缩放权重;以跳跃式探测器初始状态向量为当前状态向量作为DQN神经网络模型的输入,所述DQN神经网络模型输出下一个动作,所述Bullet物理引擎根据下一个动作和当前状态向量生成下一个状态向量,并计算当前状态向量与下一个动作对应的奖励函数,并利用奖励函数对DQN神经网络模型进行更新,随后将下一个状态向量作为更新后的DQN神经网络模型的输入,进行迭代循环训练,具体包括:步骤301、初始化容量为的经验回放池;随机初始化动作价值函数的权值参数;初始化目标动作价值函数的权值参数;步骤302、对于每个回合,初始化状态向量和具有状态特征的预处理序列;步骤303、对于回合中的每一步,根据当前的状态向量,按照ε-greedy策略选择动作;步骤304、将动作输入Bullet物理引擎中执行,Bullet物理引擎基于当前的状态向量,使用贪婪策略选择动作,选择在状态向量下动作价值函数最大的动作,再执行动作得到下一时刻的状态向量和奖励函数;步骤305、将下一时刻的状态向量间转化为预处理序列,即,并将组成状态样本存储到经验回放池中;步骤306、采用minibatch策略从经验回放池中抽取一部分状态转移样本作为训练数据;步骤307、判断是否满足,式中为每个回合单训练样本最大限制步长,若是,则令,若否,则令,使用对进行梯度下降,为DQN神经网络模型的权重;为到第步的奖励函数累计值;步骤308、,判断是否满足,若是,则返回步骤303,若否,则,判断是否满足,为总训练时间步长,若是,则返回步骤302,否则,训练结束,保存训练好的DQN神经网络模型,进入步骤4;步骤4、将训练后的DQN神经网络模型输出的所有动作作为最优动作决策,跳跃式探测器根据最优动作决策产生的路径作为最优规划路径。

全文数据:

权利要求:

百度查询: 西北工业大学宁波研究院 一种微重力环境下跳跃式探测器的路径规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。