Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习的新型智能协作配送机器人系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明涉及一种基于强化学习的新型智能协作配送机器人系统,属于机器人技术领域。通过对比现有的餐饮服务式机器人的实际情况,对硬件结构设计,软件流程以及整体的控制算法设计进行改进,同时将系统扩展到多服务机器人协作上。设计了一种系统动力模型未知,环境存在未知扰动,考虑输入约束以及引入多机防碰撞机制的条件下,利用SLAM技术的定位与导航来实现路径规划,利用强化学习和神经网络来实现智能配送机器人轨迹跟踪的最优控制。

主权项:1.基于强化学习的新型智能协作配送机器人系统,其特征在于:该系统包括底层硬件层、智能感知层、语音交互层与协作控制层;所述底层硬件层包括主控制器、伺服电机、次控制器、陀螺仪、里程计、万向轮、若干执行电机和供电电源;所述供电电源为主控制器和次控制器供电;所述主控制器与陀螺仪和里程计信号连接;所述次控制器与伺服电机信号连接;所述伺服电机与万向轮和若干执行电机信号连接;所述主控制器还与激光雷达信号连接;所述智能感知层包括定位与地图构建、路径规划与自主导航;所述底层硬件层作为硬件基础,通过智能感知层和语音交互层获取信号,最后通过协作控制层进行智能控制;所述定位与地图构建为:利用机器人的传感器来感知环境以及绘制环境地图,利用SLAM算法让机器人通过自己的传感器去感知环境,绘制环境地图,并校准其位置;借助ROS操作系统,借用激光雷达以及传感器获取到的信息来确认机器人当前所处的位置实现定位功能,同时将当前所处的位置以及姿势以及障碍物位置信息传递给主控制器,通过在主控制器上安装的ROS操作系统根据改进后的JPS+路径规划算法生成机器人下一步的运动信号以及路径信息;利用ROS的节点式管理以及其提供的通信方式来实现各个功能的联结;通过激光雷达向各个方向发射的红外激光以及对周围环境的全方位扫描来获取一系列具有特定位置的分散点,将其聚合形成点云地图,然后将每个点中包含的姿势信息与机器人的起始位置进行比较,以计算距离和角度的差异,从而获得机器人的当前姿势;采取Gmapping算法实现雷达测绘,基于贝叶斯规则有:Px1:t,y|k1:t,z1:t=Py|x1:t,z1:t·Px1:t|k1:t,z1:t2.1其中Px1:t|k1:t,z1:t表示机器人的估计轨迹,Py|x1:t,z1:t表示已知机器人轨迹和传感器观测数据下对地图构建的闭式计算,具体步骤如下:1采样:GmappingSLAM算法中每一个粒子都包含地图以及机器人的姿态的信息;最初始的数据来自于里程计的信息,这些粒子的分布通过激光扫描器来进行处理,如果分布理想的话将用于直接姿态估计,否则将引入高斯噪声来改善其分布;2加权:为不同粒子进行加权 3自适应的重采样:Neff用于决定是否需要重新采样 4地图估计构建:在结合所有粒子和机器人的当前位姿后,更新观察图和历史位姿;所述路径规划与自主导航为基于A*的改进后的JPS+算法:首先由A*算法的表达式:Fn=Gn+Hn2.4其中F是从起点经过该点再到达终点的预测总耗费值,G是耗费值,H是预测耗费值;通过建立open_list表以及close_list表用于存放未被遍历的节点以及已经遍历的节点,在算法运行过程中将待遍历的节点放入open_list表中,从其中选取F最小的节点作为下一步需要遍历的节点,并将其放入closed_list中,然后再从open_list取出一个F值最小的点,进行迭代直到到达目标点;根据已经获得的地图,首先第一步对地图的每个节点进行跳点判断,找出所有的跳点;第二步逐个对节点进行跳点的直线可达性判断并记录;第三步在其图上记下跳点的直线距离以及斜线距离;而对于剩余的节点,也对其进行各个方向的距离记录,如果该方向移动一步后碰到边界或障碍记为0,如果移动n+1步碰到边界或者障碍记为负数距离-n;对每一个节点的八个方向重复记录过程,完成JPS的预处理过程;引入双向JPS+,同时从正反两个方向进行搜索直至搜索重合即找到了一条完整的最优路径,设原初始节点为S,目标节点为G,第一步以起始点向目标点进行探索,探索到最优跳点S1;第二步以G为起始点反向探索得到最优节点G1;第三步由S1和G1为起始和终止节点重复上述过程,直到正反方向最终的目标节点一致,则最优路径产生;所述语音交互层包括:语音识别节点:通过机器人由外置模块采集到的语音信息,将其存储为相应的声音文件,由语音识别节点将其识别为对应的文本信息并发送至下一节点;意图识别节点:将由语音识别节点识别到的文本文件,通过与本地应答库中的信息标签进行匹配,并判断该指令是问答指令,还是控制指令,并将消息传递到下一节点;采用AIML语法构建预设的问答库,根据特征关键词匹配来实现语音识别;语音合成节点:将得到的文本信息转换成音频输出,借用语音播放模块进行交互;机器人运动控制节点:根据指令来控制机器人的运动,包括行走、到达指定地点和完成避障的操作;所述协作控制层为:考虑第i个机器人的动力学模型为: 其中是每个机器人的状态,是系统控制输入,是满足利普希茨连续条件的向量函数且满足fi0=0 是连续函数;则全局动力学模型写为: 其中 对于每个机器人:gx,hx是有界的且0<||gx||<bg,0<||hx||<bh,其中,bg,Bh是常量;基于先前SLAM技术的定位与地图构建获取得到实际送餐环境的室内地图,再由改进后的双向JPS+算法计算得到最优路径,让机器人跟踪该路径来实现自主导航,设每一个机器人跟踪一个参考轨迹定义误差函数为:ei=xi-ri4.3其中对于每个机器人误差表示为: 引入ξi构建增广来简化计算形式:令 其中: 为使不同的机器人之间在未知扰动下实现最低成本的控制以及避免碰撞,定义以下成本函数: 其中,是正定且连续可微的;Uiuiτ是系统输入,机器人系统实际工作需要避免执行器输出饱和,引入输入约束,将二次型形式改写成非二次型性能函数Uui来实现最小损耗成本并且引入输入约束: 其中,λ是饱和有界的;R=diagr1,r2,…,rm0是对角型;定义: 常数ki用于调节需要控制的距离大小,ω>0,当两个机器人相互靠近时,该项分母会缩小,则整体会变大,导致成本函数的整体增加,在目标优化降低成本函数的同时保持安全距离;将其带入则新的成本函数变为: 扰动使得每个机器人的代价函数变大,输入控制为使得整个性能函数最小化,最优控制法则用极小极大算法表示: 即最优集的Hamilton–Jacobi–Isaacs,HJI方程为: 上述代价函数对两边求导带入计算得: 使用神经网络函数逼近器来逼近;设逼近函数为: 其中Wk是神经网络权重,φk·是激活函数,是近似误差,k∈vi,ui,di;通过在4.12中带入4.8、4.13和4.14,经过计算,得到新的HJI方程: 其中: 其中包含近似误差的误差项εi: 由于理想权重Wvi、Wui和Wdi未知,每个代理的成本函数、控制律和干扰写为: 积分强化学习的是使用t,t+T内强化间隔为T的信号用于学习,在满足激励持续性条件下,在控制输入和扰动中加入两个探测信号和增广动力学4.5写成: 根据且式4.13和4.19得到: 对上面从t~t+T积分得到: 其中T称为强化间隔;用近似值代替4.21中的成本函数、控制律,将估计误差∈i定义为4.21两侧的差值,通过分离的线性项,得到: 其中表示克罗内克积;令其中: 则误差表示为: 权重的近似值分别为为其中权重误差定义为如果近似值收敛到理想值,那么估计误差∈i收敛到零;使用归一化梯度下降法最小化误差最终获得近似权重的更新规则如下:

全文数据:

权利要求:

百度查询: 重庆大学 基于强化学习的新型智能协作配送机器人系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。