首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于人类反馈的强化学习交通信号控制优化方法 

申请/专利权人:北京易华录信息技术股份有限公司

申请日:2024-03-05

公开(公告)日:2024-07-02

公开(公告)号:CN118280128A

主分类号:G08G1/07

分类号:G08G1/07;G08G1/08;G08G1/01;G06N20/00

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.19#实质审查的生效;2024.07.02#公开

摘要:本发明提供一种基于人类反馈的强化学习交通信号控制优化方法,采用的强化学习流程中,将路网模拟器作为环境,信号控制网络作为智能体,信号控制网络在与路网模拟器的多轮交互中不断优化自己的信号控制策略。所述基于人类反馈的强化学习交通信号控制优化方法,根据区域中所有交叉路口的流量情况进行协调配时,能够解决信号灯控制的自适应问题;同时基于人类反馈的强化学习能够将业务专家的经验很好地结合到算法模型中,可以使信控策略更符合人类的偏好,更贴合实际应用的场景。本发明提供的基于人类反馈的强化学习交通信号控制优化方法,能够缩短整个路网中的车辆等待时间,提高路网整体的通行效率。

主权项:1.一种基于人类反馈的强化学习交通信号控制优化方法,其特征在于:采用的强化学习流程中,将路网模拟器作为环境,信号控制网络作为智能体,信号控制网络在与路网模拟器的多轮交互中不断优化自己的信号控制策略,包括以下步骤:S1:通过交通感知设备收集路网信息和车流数据,利用所收集的数据对多交叉口路网模拟器进行建模,作为强化学习中的环境,根据当前信号控制策略、当前路网状态和下一时刻的信号控制策略输出下一时刻的路网状态;S2:使用t0时刻的信号控制策略和每个路口的排队信息以及路网的拓扑结构初始化环境;S3:将ti时刻组合了拓扑信息、排队信息和相互有车流影响的交叉口信息的整体路网信息以及ti时刻的动作策略作为状态、ti-1时刻采取的动作所获取的奖励输入信号控制网络,信号控制网络根据环境信息计算出ti+1时刻每个路口每个信号灯的动作概率分布,并依据业务需求修正该动作概率分布,然后使用ε-greedy原则选择信号控制策略;S4:将ti时刻的动作策略、ti时刻的路网信息和ti+1时刻的信号控制策略输入到路网模拟器中,路网模拟器输出ti+1时刻的路网信息;S5:重复步骤S3和步骤S4直到结束一个事件;S6:重复步骤S2到步骤S5直到达到预定的事件。

全文数据:

权利要求:

百度查询: 北京易华录信息技术股份有限公司 一种基于人类反馈的强化学习交通信号控制优化方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。