基于经验回放约束策略优化的自动驾驶方法和系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：吉林大学

摘要：本发明涉及自动驾驶技术领域，公开了基于经验回放约束策略优化的自动驾驶方法和系统，方法包括初始化策略神经网络参数和价值神经网络参数；设计开销函数和奖励函数，智能体与环境交互，获得轨迹；经验池收集轨迹和策略神经网络对轨迹的概率分布，从经验池中抽取指定大小批次的轨迹进行训练，获得训练数据；利用价值神经网络来评估当前策略，并通过策略梯度算法和信任域约束共同更新策略神经网络，借助均方误差损失函数来更新价值神经网络，如果神经网络达到性能要求，将其应用于自动驾驶，得到自动驾驶方法。本发明将提出的RECPO算法应用于高速公路车辆控制，设计了包括车辆距离和车速在内的状态空间，以及车速调整和变道控制的动作空间。

主权项：1.基于经验回放约束策略优化的自动驾驶方法，其特征在于，所述方法包括：步骤一，初始化策略神经网络参数和价值神经网络参数；步骤二，设计开销函数和奖励函数，智能体依据策略神经网络与环境交互，获得轨迹；步骤三，经验池收集轨迹和策略神经网络对轨迹的概率分布，从经验池中抽取指定大小批次的轨迹进行训练，获得训练数据；步骤四，利用基于奖励函数的价值神经网络和基于开销函数的价值神经网络来评估当前策略，并通过策略梯度算法和信任域约束共同更新策略神经网络，同时借助均方误差损失函数来更新价值神经网络，如果策略神经网络和价值神经网络达到性能要求，将其应用于自动驾驶，得到自动驾驶方法，否则，重复步骤二至步骤四。

全文数据：

权利要求：

百度查询：吉林大学基于经验回放约束策略优化的自动驾驶方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：应用于高应力软岩大变形施工的支护结构

下一篇：一种光纤连接器

相关技术

应用于高应力软岩大变形施工的支护结构

一种光纤连接器

一种高弹性PVDF微孔滤膜卷膜设备

一种可调的上料装置

一种喷油器总成压紧机构

一种畜牧兽医牲畜输液的固定器

晶硅材料表面处理生产及检测装置

用于获取联合学习过程的梯度数据的方法和装置

使用双像素阵列的像素传感器

一种便于清洗的木材切割设备

一种模块化的配电终端三遥故障模拟训练系统

成像镜头与电子装置

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于经验回放约束策略优化的自动驾驶方法和系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务