Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度强化学习和深度学习的自动驾驶决策规划方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天津理工大学

摘要:本发明公开了一种基于深度强化学习和深度学习的自动驾驶决策规划方法,其基于经过训练的深度强化学习网络实现;深度强化学习网络包括Actor网络、TIN网络、Critic网络和车辆轨迹预测网络;该方法在深度强化学习的基础上引入了任务重要性与车辆轨迹规划方法融合的决策规划算法,考虑了驾驶环境状态对当前动作决策的重要程度,并建立基于任务重要性的网络结构,实现在训练进程中逐步更新;在规划层次基于轨迹预测,引入奖励函数与网络中环境信息融合,实现在行驶决策效果上具有通行时间更短,安全性更高,相比现有算法提高了收敛速度和收敛效果,提升了决策规划系统的效率、安全性和舒适性,为自动驾驶公路驶出决策机理和评估等研究提供一种方案。

主权项:1.一种基于深度强化学习和深度学习的自动驾驶决策规划方法,其特征在于,基于经过训练的深度强化学习网络实现;深度强化学习网络包括Actor网络、TIN网络、Critic网络和车辆轨迹预测网络;其中,Actor网络分别与交通场景交互系统和车辆轨迹预测网络连接,以获取自车当前时刻的驾驶环境状态并输出的决策动作At={e,b,w};更新网络时,Actor网络通过随机获取批量的历史驾驶环境状态及其对应输出批量的目标决策动作及对应的下一时刻t+1的目标决策动作其中,Et为场景特征信息,为自车运动信息,为其他车辆运动信息,Ft为下一时刻t+1的轨迹预测信息,σt为决策动作和连续环境状态之间的重要程度σt,e为油门开度、b为刹车开度w为方向盘转角;TIN网络包括用于输入决策动作At和场景特征信息Et的第一处理层,用于输入决策动作At和自车运动信息的第二处理层,用于输入决策动作At和下一时刻t+1的轨迹预测信息Ft的第三处理层和用于输入决策动作At和其他车辆运动信息的第四处理层,第一处理层和第三处理层均由依次连接的BN层、维度为[4,4]的全连接层和TIC模块构成,第二处理层和第四处理层均有由依次连接的BN层、维度为[8,8]的全连接层和TIC模块构成,四个处理层的TIC模块通过加和模块与维度为[128,1]的全连接层连接,最终输出决策动作和连续环境状态之间的重要程度σt;同时,TIN网络通过获取批量的目标决策动作输出批量的目标重要程度通过获取批量的目标决策动作输出批量的目标重要程度Critic网络由TargetQ1Critic网络、TargetQ2Critic网络、Q1Critic网络和Q2Critic网络构成;其中,Q1Critic和Q2Critic网络通过分别获取当前时刻的决策动作和状态以及分别输出Q1与Q2;TargetQ1Critic和TargetQ2Critic网络通过分别获取批量的目标决策动作和批量的重要程度以及以分别输出Qtarget1和Qtarget2。

全文数据:

权利要求:

百度查询: 天津理工大学 一种基于深度强化学习和深度学习的自动驾驶决策规划方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。