Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜北京航空航天大学李可获国家专利权

恭喜北京航空航天大学李可获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜北京航空航天大学申请的专利一种机器人运动策略模型优化方法及相关装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119292077B

龙图腾网通过国家知识产权局官网在2025-03-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411822900.4,技术领域涉及:G05B13/04;该发明授权一种机器人运动策略模型优化方法及相关装置是由李可;王少凡;兰巍;李源淦;张竞乘;李鹏蛟;阚艳设计研发完成,并于2024-12-12向国家知识产权局提交的专利申请。

一种机器人运动策略模型优化方法及相关装置在说明书摘要公布了:本申请公开了一种机器人运动策略模型优化方法及相关装置,涉及人工智能领域,该方法包括基于自主交互回放数据记忆库,对机器人运动策略模型进行初步训练,得到初步训练的机器人运动策略模型;根据第二机器人执行任务时的情况,判断是否有不满足要求的场景;若有,则针对不满足要求的场景,基于混合交互回放数据记忆库,对初步训练的机器人运动策略模型进行再训练,得到训练好的机器人运动策略模型;本申请针对初步训练的机器人运动策略模型执行任务不符合要求的场景,收集人的演示数据,从而有针对性的进行后混合训练,从而能够使机器人运动策略模型更快地达到训练要求,提升机器人运动策略模型的训练效率,缩短训练周期,降低训练成本。

本发明授权一种机器人运动策略模型优化方法及相关装置在权利要求书中公布了:1.一种机器人运动策略模型优化方法,其特征在于,所述机器人运动策略模型优化方法包括:基于自主交互回放数据记忆库,对机器人运动策略模型进行初步训练,得到初步训练的机器人运动策略模型;所述自主交互回放数据记忆库包括第一样本数据;所述第一样本数据为初步训练过程中的第一机器人与环境的交互数据;所述第一机器人为基于深度Q学习模型的机器人;所述深度Q学习模型为基于所述机器人运动策略模型构建的;所述机器人运动策略模型为动作价值估计网络模型;所述动作价值估计网络模型包括输入数据预处理层、堆叠卷积层、双向门控循环单元、时序状态融合层、第一全连接层、第二全连接层和动作价值估计层;其中,所述输入数据预处理层、所述堆叠卷积层、所述双向门控循环单元和所述时序状态融合层依次连接;所述时序状态融合层的输出分别与所述第一全连接层和所述第二全连接层连接;所述第一全连接层和所述第二全连接层的输出均与所述动作价值估计层连接;第一全连接层用于进行值估计;所述值估计为输入状态的价值估计;第二全连接层用于进行各控制动作的动作优势估计;各所述控制动作均为所述输入状态对应的控制动作;根据第二机器人执行任务时的情况,判断是否有不满足要求的场景;所述第二机器人为基于初步训练的机器人运动策略模型的机器人;所述第二机器人用于根据初步训练的机器人运动策略模型输出的各控制动作的动作价值估计值,选择最大的动作价值估计值对应的控制动作进行输出;若有,则基于混合交互回放数据记忆库,对初步训练的机器人运动策略模型进行再训练,得到训练好的机器人运动策略模型;所述混合交互回放数据记忆库包括第二样本数据和第三样本数据;所述第二样本数据为人的演示数据;所述人的演示数据为所述不满足要求的场景下的第三机器人与环境的交互数据;所述第三机器人为由人控制的机器人;所述第三样本数据为再训练过程中的第一机器人与环境的交互数据;步骤“基于自主交互回放数据记忆库,对机器人运动策略模型进行初步训练,得到初步训练的机器人运动策略模型”,具体包括:建立基于深度Q学习模型的第一机器人;所述深度Q学习模型包括当前Q网络、目标Q网络、自主交互回放数据记忆库、探索模块和第一损失函数模块;所述当前Q网络和所述目标Q网络均采用与所述机器人运动策略模型相同的网络结构;随机初始化所述第一机器人在环境中的初始状态;将所述第一机器人与环境的交互数据以数据组的形式存储于自主交互回放数据记忆库;其中,所述当前Q网络用于根据当前环境的状态,计算各控制动作的动作价值估计值;所述探索模块用于根据各控制动作的动作价值估计值,选择输出的控制动作;每一所述数据组包括某一时刻的环境状态St、所述某一时刻的环境状态对应的控制动作at、所述对应的控制动作对应的环境奖励Rt和下一时刻的环境状态St+1;当所述自主交互回放数据记忆库中所述数据组的数量达到预设阈值时,从所述自主交互回放数据记忆库中随机选择数据组(St、at、Rt、St+1),对当前Q网络和目标Q网络的网络参数进行更新;根据所述第一机器人执行任务的情况,判断是否满足本轮训练结束条件;若否,则返回步骤“将所述第一机器人与环境的交互数据以数据组的形式存储于自主交互回放数据记忆库”;若是,则结束本轮训练,将训练轮数加1,返回步骤“随机初始化所述第一机器人在环境中的初始状态”,直至训练轮数达到预设轮数,将当前Q网络确定为初步训练的所述机器人运动策略模型。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京航空航天大学,其通讯地址为:100190 北京市海淀区学院路37号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。