一种基于人类反馈的强化学习交通信号控制优化方法

导航：龙图腾网> 最新专利技术> 一种基于人类反馈的强化学习交通信号控制优化方法

申请/专利权人：北京易华录信息技术股份有限公司

申请日：2024-03-05

公开（公告）日：2024-07-02

公开（公告）号：CN118280128A

主分类号：G08G1/07

分类号：G08G1/07;G08G1/08;G08G1/01;G06N20/00

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.07.19#实质审查的生效;2024.07.02#公开

摘要：本发明提供一种基于人类反馈的强化学习交通信号控制优化方法，采用的强化学习流程中，将路网模拟器作为环境，信号控制网络作为智能体，信号控制网络在与路网模拟器的多轮交互中不断优化自己的信号控制策略。所述基于人类反馈的强化学习交通信号控制优化方法，根据区域中所有交叉路口的流量情况进行协调配时，能够解决信号灯控制的自适应问题；同时基于人类反馈的强化学习能够将业务专家的经验很好地结合到算法模型中，可以使信控策略更符合人类的偏好，更贴合实际应用的场景。本发明提供的基于人类反馈的强化学习交通信号控制优化方法，能够缩短整个路网中的车辆等待时间，提高路网整体的通行效率。

主权项：1.一种基于人类反馈的强化学习交通信号控制优化方法，其特征在于：采用的强化学习流程中，将路网模拟器作为环境，信号控制网络作为智能体，信号控制网络在与路网模拟器的多轮交互中不断优化自己的信号控制策略，包括以下步骤：S1：通过交通感知设备收集路网信息和车流数据，利用所收集的数据对多交叉口路网模拟器进行建模，作为强化学习中的环境，根据当前信号控制策略、当前路网状态和下一时刻的信号控制策略输出下一时刻的路网状态；S2：使用t0时刻的信号控制策略和每个路口的排队信息以及路网的拓扑结构初始化环境；S3：将ti时刻组合了拓扑信息、排队信息和相互有车流影响的交叉口信息的整体路网信息以及ti时刻的动作策略作为状态、ti-1时刻采取的动作所获取的奖励输入信号控制网络，信号控制网络根据环境信息计算出ti+1时刻每个路口每个信号灯的动作概率分布，并依据业务需求修正该动作概率分布，然后使用ε-greedy原则选择信号控制策略；S4：将ti时刻的动作策略、ti时刻的路网信息和ti+1时刻的信号控制策略输入到路网模拟器中，路网模拟器输出ti+1时刻的路网信息；S5：重复步骤S3和步骤S4直到结束一个事件；S6：重复步骤S2到步骤S5直到达到预定的事件。

全文数据：

权利要求：

百度查询：北京易华录信息技术股份有限公司一种基于人类反馈的强化学习交通信号控制优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种多方向出风的全域风空调

下一篇：一种用于缓解干眼症状的眼膏的制备方法

相关技术

一种多方向出风的全域风空调

一种用于缓解干眼症状的眼膏的制备方法

一种基于不确定性环境的自主导航机器人运动规划方法

一种基于配棉工序的纱线质量预测方法、系统和储存介质

匹配感应淬回火工艺的高温高压螺栓钢服役性能控制方法

设备控制方法、装置、存储介质及电子装置

一种铀矿勘查用花岗岩型铀矿钻探测井断线报警系统

粘合剂组合物和粘合片

贴胶机构及卷绕系统

用于纳米金相印刷的涂覆有添加剂的金属效果颜料

电子连接器及其插头

一种高大空间火灾升温曲线简化估算方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于人类反馈的强化学习交通信号控制优化方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务