买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:长春工业大学
摘要:无信号交叉口左转车辆安全通行的强化学习高效优化方法,该方法融合场景风险预测,优化强化学习经验存储与回放机制。首先,本发明建立一个无信号交叉口车辆左转的强化学习模型,设计一个场景风险评估器以及一个双经验回放池架构。其次,在强化学习模型训练过程中,场景风险评估器实时评估每个环境步的场景风险系数,并据此区分普通场景与风险场景,将经验样本分别存储在两个经验回放池。再次,智能体按设定比例从两个经验回放池中抽取经验样本,特别是风险经验回放池中的样本抽取依据场景风险系数的概率分布函数;最后,重复以上步骤进行循环训练,不断优化模型,直至获得最优的无信号交叉口左转车辆安全通行策略。
主权项:1.无信号交叉口左转车辆安全通行的强化学习高效优化方法,其特征在于将场景风险预测融入到无信号交叉口左转车辆强化学习训练的经验存储与回放过程中,该方法包括无信号交叉口车辆左转的强化学习模型、场景风险评估器、普通和风险双经验回放池架构,以及经验抽取函数设置;该方法包括以下步骤:步骤1、无信号交叉口车辆左转的强化学习模型设计:步骤1.1、状态空间与动作空间设计:本发明中无信号交叉口车辆左转的强化学习模型设计时,状态空间为融合多种信息的高维状态向量s,包括起始位置坐标、自车位置坐标、终点区域中心点坐标、自车的加速度、速度与航向角和他车的位置坐标、加速度、速度与航向角;本发明中无信号交叉口车辆左转的强化学习模型设计时,动作空间a为连续二维动作空间,包含车辆横向与纵向控制量;横向控制量为车辆前轮转角,纵向控制量为油门或制动踏板开度;步骤1.2、奖励函数设计:为了确保自动驾驶车辆在无信号交叉口左转时的安全性、舒适性和高效性,本发明中考虑加速度、时间和多级目标区域这些评价指标,设计奖励函数,该函数综合考虑了加速度、时间和多级目标区域等多重评价指标;具体而言,本发明为车辆的左转任务设定了一个双层的目标区域,车辆根据到达目标区域的不同层级获得相应的奖励激励;特别是,当车辆成功抵达中央车道时,将获得更高的正向奖励,以此促进车辆选择最优行驶路径;此外,本发明还对车辆完成左转任务的时间进行评估,若车辆能在设定的最大完成时间内完成任务,则给予正奖励,反之则给予负奖励,以此激励车辆提升通行效率;为了保证车辆在到达目标区域后能够与车道方向保持一致,引入车辆航向角作为评价指标;最后,为强化安全性,当车辆发生碰撞或驶离车道时,将施加负奖励;通过这种设计,奖励函数能够全面评价车辆在无信号交叉口左转任务中的表现,并引导其学习既安全又高效的行驶策略;因此,奖励函数设置如下: 式中,c为常数项;xego,yego为当前自车位置;xend,yend是目标区域中心点;aego为自车加速度;rint为关于车辆转角的奖励项;rang为关于车辆航向的奖励项;rpun为事故违章惩罚项;rtar为到达目标区域奖励项;步骤2、普通和风险经验回放池与场景风险评估器的构建:步骤2.1、构建普通和风险经验回放池架构:此步骤中,设置一个普通经验回放池和一个风险经验回放池;普通经验回放池接收状态s、动作a、奖励r、下一步状态s_组成的四元组经验;风险经验回放池接收场景风险系数ε、状态s、动作a、奖励r、下一步状态s_组成的五元组经验;两个经验回放池容量遵循M1=0.1M2关系,其中M1为普通经验回放池容量;M2为风险经验回放池容量;步骤2.2、构建场景风险评估器:此步骤中,设置一个场景风险评估器;其接收当前环境步中自车与他车的位置坐标与航向信息计算潜在碰撞点,得出自车与他车分别距离潜在碰撞点距离D1,D2,计算公式如下: D2=a-d3根据碰撞时间TTC原则计算两者碰撞时间,利用下列公式得出当前环境步场景风险系数ε; 式中v1,v2分别为自车和他车的速度;步骤3、场景风险系数的获取:在强化学习每个环境步中,场景风险评估器获取当前环境步状态,根据步骤2.2中原理输出当前环境步的场景风险系数ε;步骤4、风险场景判定与经验样本存储:步骤4.1、风险场景判定:定义风险系数阈值ε0,根据当前环境步的场景风险系数区分风险场景与普通场景,当ε≤ε0时认定当前场景为有风险场景,反之认定为普通场景;步骤4.2、经验样本存储:将普通场景经验与风险场景经验均以先入先出的方式存储进对应经验回放池中,普通场景下将状态s、动作a、奖励r、下一步状态s_组成的四元组经验,以[s,a,r,s_]形式存储进普通经验回放池中;风险场景下将场景风险系数ε、状态s、动作a、奖励r、下一步状态s_组成的五元组经验,以[ε,s,a,r,s_]形式存储进风险经验回放池中;步骤5、智能体网络参数更新:步骤5.1、经验样本抽取:在强化学习智能体网络参数更新时,需要从经验回放池中抽取一个批次数量为B的经验样本,从两个经验回放池分别提供B1,B2数量的经验样本。风险经验样本数量B2根据智能体训练效果进行动态调节,B1,B2表达式如下: B1=B-B26式中,λ为最近n回合内碰撞的次数;λ0为从风险经验回放池中抽取经验的最小数量;进行经验样本抽取时,在普通经验回放池中按照每个经验样本等概率随机抽取的方式抽取经验样本;在风险经验回放池中,对经验样本建立与每条经验样本的风险系数ε有关的指数概率分布函数,赋予每条经验样本对应的样本抽取概率,按照其概率单次抽取经验样本,并使ε∈[0,ε0]上的概率分布密度为1;风险经验回放池的经验样本抽取概率分布函数如下: 式中,c为常数项;步骤5.2、经验样本回放:此步骤中将来自风险经验回放池和普通经验回放池的经验样本进行拆分,分别组合成状态s、动作a、奖励r、下一步状态s_的B维向量,传输进智能体进行经验样本回放,智能体分别计算各个网络的损失函数Loss值用以反向传播进行参数更新,从而学习到更新的无信号交叉口车辆左转安全通行的策略;步骤6、迭代训练优化:此步骤重复步骤3、步骤4、步骤5对模型进行迭代训练,直至获得最优无信号交叉口左转车辆安全通行策略。
全文数据:
权利要求:
百度查询: 长春工业大学 无信号交叉口左转车辆安全通行的强化学习高效优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。