Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于轨迹扩散网络控制机器人奔跑的方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:电子科技大学

摘要:本发明公开了一种基于轨迹扩散网络控制机器人奔跑的方法,通过收集专家演示控制机器人奔跑的数据集,使用轨迹扩散网络学习专家决策;然后使用了一个因果自回归轨迹生成网络生成可行的轨迹,再使用反因果轨迹优化网络来优化生成轨迹的质量,这样不仅能够提升生成轨迹的质量,并且和基于扩散模型的方法相比,本发明具有极高的推理速度优势,使得我们的方法能够适应快速变化的环境。

主权项:1.一种基于轨迹扩散网络控制机器人奔跑的方法,其特征在于,包括以下步骤:1、数据采集;1.1、采集机器人在奔跑过程中各个关节在不同时刻的状态S,状态包含角度θ、坐标x、速度v、角速度ω;记机器人的各关节在t时刻的状态为st,st={θt,xt,vt,ωt},θt,xt,vt,ωt分别为第各关节在t时刻的角度向量、坐标向量、速度向量和角速度向量;记状态st对应的动作为at,at的表示t时刻施加在各个关节上的扭矩向量;记状态st对应的奖励为rt,rt表示执行动作at的好坏,当rt=1时,表示动作at执行完成,当rt=0时,表示动作at未执行完成;根据机器人各关节在不同时刻的状态、动作、奖励构建各关节的轨迹序列; 其中,τ表示各关节的轨迹序列,T表示采样总时刻数;2、数据预处理;2.1、将轨迹序列τ中的状态进行归一化;2.2、计算每个状态的折扣回报率其中,γ为常数,γ取值范围为0,1];2.3、对于每一条轨迹序列,将轨迹状态的用归一化后的状态值替换,将奖励用折扣回报率替换,从而得到更新后的轨迹序列; 其中,表示st归一化后的值;Rt表示t时刻的状态对应的折扣回报率;2.4、将更新后的每条轨迹划分为长度为H的子轨迹;3、构建轨迹扩散策略网络;轨迹扩散策略网络包括因果自回归轨迹生成网络、反因果轨迹优化网络和逆动力学网络;其中,因果自回归轨迹生成网络包括条件融合模块和多层自注意力模块;其中,条件融合模块又包括:状态嵌入模块和折扣奖励R嵌入模块;折扣奖励R嵌入模块的特征维度为128,经过嵌入后进行拼接和层归一化,获得特征维度为256的嵌入向量,然后将嵌入向量加入位置编码信息后送入自注意力模块;每层自注意力模块又包括多头注意力模块和前馈模块,前馈模块的维度为512;因果自回归轨迹生成网络的输入为长度H-1的状态序列和折扣回报率序列,两个序列连接成一个整体词元τ; 然后将整体词元τ输入至自注意力模块,从而预测出下一个状态和折扣回报率反因果轨迹优化网络采用多尺度感知U-net网络作为基本网络,每种尺度下的感知U-net网络在进行每一次下采样都将维度翻倍,长度减半;反因果轨迹优化网络的输入为长度H的状态序列,输出为更新后的状态序列;逆运动学网络由3层的全连接层组成,每一层全连接层的维度均为256,逆运动学网络的输入为两个相邻的状态,输出为动作;4、训练轨迹扩散策略网络;4.1、从数据集中随机采样一条更新后的轨迹序列然后截取轨迹序列中的一条子轨迹,记为η,4.2、将子轨迹η中的状态序列和扣回报率序列R1,R2,…,RH-1输入至因果自回归轨迹生成网络,从而预测出下一个状态和折扣回报率4.3、将状态和折扣回报率添加至和R1,R2,…,RH-1,得到长度为H的状态序列和扣回报率序列4.4、将状态序列输入至反因果轨迹优化网络,得到优化后的状态序列;4.5、在优化后的状态序列中,提取状态和送入至逆动力学网络,从而预测出第H-1时刻对应的动作aH-1;4.6、使用Adam优化器更新轨迹扩散策略网络中的权值参数,然后重复步骤4.1~4.5,直至轨迹扩散策略网络收敛;5、使用轨迹扩散策略网络进行决策;5.1、给定当前时刻t时的观测状态序列以及期望的折扣回报率序列5.2、将观测序列和期望折扣回报序列输入至轨迹扩散策略网络,先通过因果自回归轨迹生成网络预测出下一个状态和折扣回报率再将和添加至观测状态序列和期望的折扣回报率序列,然后通过反因果轨迹优化网络优化后,提取t时刻和t+1时刻的状态输入至逆动力学网络,从而预测出t时刻需要执行的动作at;5.3、通过控制器发送执行动作at到各个关节的执行器并执行,然后计算获得的奖励rt;5.4、传感器收集下一个观测状态,再重复执行决策过程,直到决策任务结束。

全文数据:

权利要求:

百度查询: 电子科技大学 一种基于轨迹扩散网络控制机器人奔跑的方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。