首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于强化学习的化工安全巡检机器人巡回路线优化方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:辽宁石油化工大学

摘要:基于强化学习化工安全巡检机器人巡回路线优化方法,属于机器人巡检领域。首先提取工厂3D建模图道路交叉点的坐标,将坐标按照实际厂区道路分布情况进行连接,使用A*算法规划出每两点间路线,建成机器人检测环境模型,然后引入气体泄漏平面高斯模型构成扩展的机器人检测环境模型,接着使用改进的Q学习算法基于扩展模型求出最优巡回路线,最后使用MATLAB软件绘制出所求得的最优巡回路线。使得巡检过程可视化,能直观地看到机器人整个巡检过程,引入的气体泄漏平面高斯模型提高了检测气体泄漏的精确性,同时也减少了巡检路径的冗余,节省机器人在巡检过程中的时间,为化工安全机器人合理安排巡回路线提供了有效的技术支撑,提高了巡检的效率和准确性。

主权项:1.基于强化学习的化工安全巡检机器人巡回路线优化方法,其特征在于,具体步骤如下:步骤一:建立机器人巡检环境的二维平面模型;运用3dsMax软件打开厂区3D模型图并提取出厂区道路交叉点坐标,接着保留坐标二维数据并存入Excel表格中;然后用MATLAB仿真软件读取表格数据,将坐标按照3D模型图中道路分布情况进行连接,完成对复杂建筑物及其他障碍物的避障处理,且连接生成的图是二维平面图;最后选取一些交叉点坐标作为气体泄漏待检测点,使用A*算法计算出每两点之间的初次路线和邻接矩阵,由此建立了机器人巡检环境的二维平面模型;其中A*算法公式如下:fn=gn+hn1其中,fn是节点n的综合估计值,gn是节点n距离起点的实际代价,hn是节点n距离终点的估计代价,运用此公式可以计算出两点间的最优路径;步骤二:将构建的机器人巡检环境的二维平面模型转化为扩展的机器人巡检环境二维平面模型;气体泄漏扩散平面高斯模型表达式如下: 其中,cx是随着气体泄漏扩散距离变化的气体浓度,Q是与泄漏源等效的信号强度,u是泄漏气体在当前环境中的扩散参数,x是气体泄漏扩散的距离,α是衰减因子,ω是气体泄漏扩散过程中的随机噪声;该表达式假设气体泄漏是一个稳定常态气体扩充的过程,泄漏过程中泄漏源强度不变,并且忽略气体泄漏前后的压强变化带来的局部温度差异;将此气体泄漏扩散模型引入步骤一所构建的机器人巡检环境二维平面模型中;考虑到泄漏气体会向环境中扩散,机器人所携带传感器在离泄漏点一定位置就可以检测到泄露气体,从而需要对两点间距离进行重新规划;因此再次选用A*算法对每两点间的路线进行二次计算,得到最终实际路线;此路线会衡量选择是经过泄漏点完成气体泄漏检测,还是达到传感器检测浓度处完成气体泄漏检测,由此得到扩展模型;步骤三:在扩展模型基础上利用改进Q学习算法计算出从起点遍历检测所有泄漏点后回到起点的最优巡回路线;在MATLAB仿真软件中采用改进的Q学习算法求解从起点出发检测所有泄漏点后回到起点的最优巡回路径,优化算法步骤如下:1将起点和泄漏点进行顺序编码:[1,2,3,…,n+1],其中1是起点,n是泄漏点个数;2利用ε-greedy策略和进一步引入了蚁群算法的概率原则去选择遍历下一个待检测泄漏点;为了进一步权衡Q学习算法的探索和利用关系,增加其跳出局部最优的能力,将ε-greedy策略表达式与迭代次数联系起来,ε值随着迭代次数的增加而逐渐减小;ε表达式如下: 其中,ε表示ε-greedy策略概率值,t是当前迭代次数,T是最大迭代次数;当小于ε值时选择对应Q值最高的待检测泄漏点,反之按照蚁群算法的概率原则进行选取下一个待测泄漏点;对蚁群算法的概率原则进一步改进,将其与Q学习的Q表和奖励值联系起来,概率pij被表示如下: 其中,pij表示从i点转移到j点的概率,Ji表示下一步允许选择的待检测泄漏点;Qij是Q学习算法中的Q表中的值,在此被当作蚂蚁的信息素,作为蚂蚁在本次迭代中留在ij上的信息素量;Rij是Q学习算法中的奖励值,在此可以被当作一个启发因子,表示从i点转移到j点的期望程度,此处取i点与j点之间距离的倒数;δ和θ分别表示信息素和期望启发因子的相对重要程度;根据上述公式选出下一个待检测泄漏点后,用Q学习算法进行更新Q表,更新公式如下:Qs,α=Qs,a+α[Rs,a+γmaxQs′,a-Qs,a]5其中,α表示学习率,α∈[0,1];Qs,a表示当前状态动作的估计值,Qs′,a为下一状态动作的估计值;Rs,a表示在当前状态s下执行某个动作a,环境立即给予的奖励值;maxQs,a表示在动作集中选择Qs′,a最大的动作,γ表示奖励的折扣因子,γ∈[0,1];3重复步骤2,直到完成遍历所有待检测泄漏点并回到起点,从而完成一个巡回检测过程;接着根据精英保留策略保留最优的前一半个体,并将这一半个体进行复制完成种群的填充;4重复上述步骤直到完成最大迭代次数,选取最优个体作为当前巡回检测方案;步骤四:仿真可视化计算得到的最优巡回路线;使用MATLAB仿真软件将步骤三求解得到的巡回检测方案按照巡回遍历节点先后顺序进行连接,得到最优巡回路线图,可以清晰地了解机器人巡回检测泄漏点的行进路线,为实际应用提供参考。

全文数据:

权利要求:

百度查询: 辽宁石油化工大学 基于强化学习的化工安全巡检机器人巡回路线优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。