Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜龙门实验室王东署获国家专利权

恭喜龙门实验室王东署获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜龙门实验室申请的专利一种能够进行增量式连续学习的移动机器人行为决策方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117114080B

龙图腾网通过国家知识产权局官网在2025-05-02发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310944616.3,技术领域涉及:G06N3/096;该发明授权一种能够进行增量式连续学习的移动机器人行为决策方法是由王东署;冀保峰;张高远;张冀;张平;陈韵然;孙力帆;陶发展;王楠设计研发完成,并于2023-07-31向国家知识产权局提交的专利申请。

一种能够进行增量式连续学习的移动机器人行为决策方法在说明书摘要公布了:一种能够进行增量式连续学习的移动机器人行为决策方法,通过强化学习的方式与环境进行交互,同时在线学习当前决策,通过模拟人脑记忆功能,使移动机器人具备适应多变环境的能力,同时设计了好奇心指标驱动的内部奖励机制,模拟好奇心对于人类记忆的强化机制,实现移动机器人对于陌生行为决策的记忆编码,以及对于常用行为决策的记忆巩固,提高了移动机器人在环境认知中的学习与记忆能力。本发明在原有移动机器人决策方法中加入了增量学习,使移动机器人更能适应复杂动态环境下的导航决策任务。

本发明授权一种能够进行增量式连续学习的移动机器人行为决策方法在权利要求书中公布了:1.一种能够进行增量式连续学习的移动机器人行为决策方法,所述移动机器人在运行过程中持续对外界环境进行检测并得到图像信息,该决策方法将移动机器人的运行过程划分为多个决策周期,并根据图像信息依次给出每个决策周期的行为决策,从而控制移动机器人依次按照多个决策周期的行为决策进行运动,其特征在于:在每个决策周期中,通过海马区接收当前时刻的输入图像,得到基于记忆的预选决策am,并通过前扣带回得到基于概率的预选决策ap;海马区为增量式自组织神经网络,包括输入层X、池化层、中间层Y和输出层Z,中间层Y的每个神经元中分别存储有各自的一个记忆信息,每个记忆信息均为通过感知信息o、状态信息s和决策信息a组成的三元组<o,s,a>,其中感知信息o为预存储的外界环境图像信息,状态信息s为移动机器人的空间坐标,决策信息a为移动机器人的动作指令;输入层X能够接收输入图像并传递至池化层,池化层能够对输入图像进行特征提取和降维处理,得到外界感知om并将其传递至中间层Y,输出层Z能够将决策信息a输出至移动机器人进行运动控制;海马区将外界感知om与存储的多个记忆信息的三元组<o,s,a>中的感知信息o分别进行比对,得到与外界感知om相似度最高的感知信息o,然后将该感知信息o所属的三元组<o,s,a>中的决策信息a作为基于记忆的预选决策am;前扣带回为基于状态-动作对的Q值神经网络,前扣带回接收当前时刻的状态信息s,将当前时刻的状态信息s与多个决策信息a分别组成状态-动作对(s,a),并分别得到所有包含当前时刻的状态信息s的状态-动作对的Q值,然后通过式(1)分别得到当前时刻的状态信息s下多个决策信息a的执行概率; 式(1);式(1)中,m1为状态-动作对(s,a)的数量;前扣带回对所得的多个执行概率进行比对,然后将执行概率最大的决策信息a作为基于概率的预选决策ap;当基于记忆的预选决策am与基于概率的预选决策ap相同时,将预选决策am或ap作为移动机器人在当前决策周期中执行的行为决策;当基于记忆的预选决策am与基于概率的预选决策ap不同时,根据ε-greedy策略做出移动机器人在当前决策周期中执行的行为决策,然后进行海马区更新学习和前扣带回更新学习;海马区更新学习为,通过前扣带回将当前时刻的状态信息s和基于概率的预选决策ap传递至海马区,海马区对外界感知om、当前时刻的状态信息s和基于概率的预选决策ap进行编码,得到短期记忆集合,n1为短期记忆集合e中的变量u的数量,然后通过式(2)得到记忆相似度矩阵Slt; 式(2);式(2)中,n2为输入层X的神经元数量,l为中间层Y的现有神经元个数,vi,j为输入层X的第i个神经元到中间层Y的第j个神经元的权值向量,ui为短期记忆集合e中的第i个变量;当记忆相似度矩阵Slt小于记忆判断阈值时,在中间层Y增加一个新的神经元,并将外界感知om、当前时刻的状态信息s和基于概率的预选决策ap组成的三元组作为新的记忆信息存储到增加的神经元中,实现神经网络的记忆增加学习;当记忆相似度矩阵Slt不小于记忆判断阈值时,海马区通过式(3)得到预测误差Prediction_error; 式(3);式(3)中,Et为外界感知om、当前时刻的状态信息s和基于概率的预选决策ap组成的情景感知记忆信息,Wt为中间层Y存储的记忆信息;前扣带回通过式(4)和式(5)得到认知冲突Conflict; 式(4); 式(5);式(4)、(5)中,m2为存储的决策信息a的数量,Pi为当前时刻的状态信息s下第i个决策信息a的执行概率;然后海马区和前扣带回分别将预测误差Prediction_error和认知冲突Conflict传递至前额叶,前额叶将预测误差Prediction_error和认知冲突Conflict中较大的值选取为环境误差Error: 式(6);然后通过式(7)得到好奇心响应Curiosity,通过式(8)得到焦虑响应值Anxiety,并通过式(9)得到调节因子μ; 式(7); 式(8); 式(9);式(7)、(8)、(9)中,Cmax为预设的好奇心最大值,Amax为预设的焦虑最大值,β为调节系数,R为环境奖励;然后通过式(10)对中间层Y的神经元的权值进行更新,并通过更新后的权值替换原有的权值,实现神经网络的记忆巩固学习; 式(10);式(10)中,vj为中间层Y的第j个神经元的权值,ωnj为中间层Y的第j个神经元在激活次数为n时的学习率,yj为中间层Y的第j个神经元的响应值,为输入向量,μ为调节因子;前扣带回更新学习为,通过式(11)和式(12)对状态-动作对的Q值进行更新,并通过更新后的Q值替换原有的Q值神经网络; 式(11); 式(12);式(11)、(12)中,α为Q值的学习率,A为存储的决策信息a的集合,μ为调节因子。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人龙门实验室,其通讯地址为:471000 河南省洛阳市伊滨区科技大道1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。