Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于课程强化学习的无保护左转场景决策规划方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学前沿技术研究院;北京理工大学;山东汇创信息技术有限公司;山东伟创信息技术有限公司

摘要:本发明提供了一种基于课程强化学习的无保护左转场景决策规划方法及系统。该方法包括,获取自车辆状态信息和障碍物信息;基于可变数量的障碍物信息,提取空间维度的障碍物特征;所述空间维度的障碍物特征包括多时间维度信息;基于空间维度的障碍物特征,提取多时间维度的空间特征信息;基于多时间维度的空间特征信息,采用多阶段的课程学习方法进行启发式训练,每下一训练阶段,抛弃一个未来时间帧状态,直到抛弃所有未来时间帧特征,得到输入只有当前时间帧和过去时间帧的多维时空的障碍物特征;将多维时空的障碍物特征与自车辆状态信息进行融合,得到融合特征;将融合特征和奖励信息,输入策略网络,经动作解码网络输出自车辆动作信息。

主权项:1.基于课程强化学习的无保护左转场景决策规划方法,其特征在于,包括:步骤一:获取自车辆状态信息和环境车辆状态信息,并将环境车辆状态信息作为障碍物信息;步骤二:基于可变数量的障碍物信息,采用课程PPO中的状态编码网络,提取空间维度的障碍物特征;所述空间维度的障碍物特征包括多时间维度信息,即当前时间帧、过去时间帧和未来时间帧的空间维度信息;基于空间维度的障碍物特征,提取多时间维度的空间特征信息;步骤三:基于多时间维度的空间特征信息,采用多阶段的课程学习方法在课程PPO中的状态编码网络中进行启发式训练,每下一训练阶段,抛弃一个未来时间帧状态,直到抛弃所有未来时间帧特征,得到输入只有当前时间帧和过去时间帧的多维时空的障碍物特征;步骤四:将多维时空的障碍物特征与自车辆状态信息进行融合,得到融合特征;基于状态编码网络输出的融合特征,连同从环境中获得的奖励信息一起输入策略网络中,通过动作解码网络输出自车辆动作信息,并将自车辆动作信息转化为自车辆位姿信息和自车辆速度信息,并打包为状态信息;步骤五:自车辆通过与环境交互获取状态信息和奖励信息,对状态信息的处理如步骤一到步骤四,课程PPO算法对从环境中获得的信息存入MDP元组中,网络以一定频率利用与环境获取的MDP元组经验对整体网络进行更新;步骤六:重复以上步骤一定轮次直至策略网络收敛,最终输出无保护左转的策略网络。

全文数据:

权利要求:

百度查询: 北京理工大学前沿技术研究院 北京理工大学 山东汇创信息技术有限公司 山东伟创信息技术有限公司 基于课程强化学习的无保护左转场景决策规划方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。