Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:本发明公开了一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备,在预训练阶段,使用CARLA模拟器中采集的数据,基于横摆角速度和现有奖励函数真值进行奖励函数的神经网络模型预训练,为奖励函数模型提供一定的先验知识,有助于加速模型的收敛过程。在奖励函数学习阶段,采用人类偏好以修正和优化奖励函数,通过奖励预测值和实际偏好的交叉熵损失并在损失函数中加入L2正则化,以确保学习行为更贴近人类决策,并防止奖励黑客现象,从而实现自动驾驶系统的决策与人类价值观的对齐。在智能体学习阶段,利用PPO算法和多通道BEV作为环境输入,结合油门开度与转角的向量输出进行实时训练,确保了自动驾驶系统的实时响应性和安全性。

主权项:1.一种基于人类偏好强化学习的端到端自动驾驶系统,其特征在于,包括:预训练部分、奖励函数学习部分以及智能体学习部分;所述预训练部分,将预先采集的数据作为输入,将奖励函数输出的真值加上横摆角速度作响应比作为目标值,对奖励函数的神经网络模型进行预训练;通过使用预先采集到的数据进行预训练,奖励函数的神经网络模型在学习之前就能获得关于任务的一定的先验知识;所述奖励函数学习部分,利用奖励函数的神经网络模型的预测值得出奖励函数模型预测的偏好,与真实偏好做交叉熵,并获取此状态下不同动作的奖励分布并加入L2正则化项,其可以通过添加权重的平方和作为惩罚项,有助于减少模型复杂度并防止过拟合,提高模型的泛化能力。奖励函数学习通过引入人类偏好,借助偏好预测模型与交叉熵损失函数使得模型的学习行为更加接近人类决策;所述智能体学习部分,以语义分割后的多通道BEV作为输入,以向量形式的油门开度与转角作为输出,进行实时训练,智能体学习采用PPO算法,通过实时采集的车端与路端信息进行训练。

全文数据:

权利要求:

百度查询: 江苏大学 一种基于人类偏好强化学习的端到端自动驾驶控制系统及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术