首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多级安全规约策略优化的高速公路驾驶决策方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:吉林大学

摘要:本发明涉及自动驾驶技术领域,具体公开了一种基于多级安全规约策略优化的高速公路驾驶决策方法,所述方法包括构建智能体与环境的交互平台;根据自动驾驶决策问题建立马尔可夫决策过程模型;根据深度强化学习算法搭建神经网络;对神经网络进行安全态势等级评估与优化;对神经网络进行多次迭代训练,得到训练后的神经网络模型,根据训练后的神经网络模型,生成高速公路自动驾驶实时决策,在传统信任域算法的基础上,通过引入一种基于约束的神经网络,实现对车辆当前行驶状态下的安全满足程度进行分级量化评估。

主权项:1.一种基于多级安全规约策略优化的高速公路驾驶决策方法,其特征在于,所述方法包括:构建智能体与环境的交互平台;根据自动驾驶决策问题建立马尔可夫决策过程模型,并根据自动驾驶车辆周围一定区域内的场景信息确定约束马尔可夫决策过程的状态空间,根据自动驾驶控制指令确定约束马尔可夫决策过程的动作空间,根据高速公路场景下车辆所能遇到的安全问题确定约束马尔可夫决策过程的开销函数,根据自动驾驶车辆的舒适、效率与安全性能确定约束马尔可夫决策过程的奖励函数;根据深度强化学习算法搭建神经网络,所述神经网络包括策略神经网络、基于奖励函数的神经网络和基于开销函数的神经网络;对神经网络进行安全态势等级评估与优化;对神经网络进行多次迭代训练,得到训练后的神经网络模型;根据训练后的神经网络模型,生成高速公路自动驾驶实时决策;所述对神经网络进行安全态势等级评估与优化的步骤包括:计算基于奖励函数的神经网络梯度和基于开销价值函数的神经网络梯度;根据开销价值函数梯度计算得到当前策略的安全等级判断因子;将得到的安全等级判断因子与预设的安全等级态势分级标准比较,并确定对应的安全等级态势,所述安全等级态势分级包括低风险安全态势、中等风险安全态势、高风险安全态势;根据不同安全等级态势选择对应的策略更新方式;所述根据不同安全等级态势选择对应的策略更新方式的步骤包括:当安全等级判断因子在预设的低风险安全态势标准范围内时,判定为低风险安全态势,利用信任域方法来进行策略更新;当安全等级判断因子在预设的中等风险安全态势标准范围内时,判定为中等风险安全态势,通过解决对偶问题来确定既不违反安全约束又使奖励函数期望最大化的策略;当安全等级判断因子在预设的高风险安全态势标准范围内时,判定为高风险安全态势,通过自然梯度方法确定解决方案;三个损失函数为costrisk、costout、costcollision,设计碰撞安全阈值Cr参数,当有碰撞可能性的两车间距小于Cr时,损失函数costrisk值加1,当自动驾驶车辆驶出定义的车道边界时,损失函数costout值增加1,当车辆间或与车辆与道路障碍间发生碰撞时,损失函数costcollision值加15;k1,k2,k3为设置的权重调节超参数;开销函数设计如下:Rcost=k1*costrisk+k2*costout+k3*costcollision

全文数据:

权利要求:

百度查询: 吉林大学 一种基于多级安全规约策略优化的高速公路驾驶决策方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。