首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于多智能体强化学习的多路口交通信号灯公平控制方法 

申请/专利权人:吉林大学

申请日:2024-03-11

公开(公告)日:2024-07-05

公开(公告)号:CN118298648A

主分类号:G08G1/083

分类号:G08G1/083;G08G1/08;G08G1/065;G06N3/0475;G06N3/0455;G06N3/094;G06N3/092;G06N3/0895

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.23#实质审查的生效;2024.07.05#公开

摘要:本发明属于智能交通控制技术领域,具体公开了基于多智能体强化学习的多路口交通信号灯公平控制方法,设计了一种新型的公平性度量指标,并提出了一种公平性感知的多智能体强化学习方法,可以在确保模型性能不受影响的前提下,提供相对公平的动作决策;提出了反事实数据增强的模块,通过利用反事实思想,基于已有的交互数据实现数据集的扩展,有利于丰富交互数据的多样性,进而在交互数据收集受限的任务中提高训练样本效率;设计了辅助自监督表示学习任务,通过状态之间天然的时序关系构建自监督表示学习损失,额外训练损失的引入有利于状态信息特征提取,提升模型训练样本效率。

主权项:1.基于多智能体强化学习的多路口交通信号灯公平控制方法,其特征在于,包括以下步骤:S100、建立多路口交通信号灯调度模型进行交通信号灯相位调度;S200、结合反事实数据增强过程和自监督状态表示学习过程建立公平性感知的动作决策模型衡量交通信号灯相位调度的不公平程度;其中:反事实数据增强过程:通过生成对抗网络近似得到环境状态转移函数,然后利用反事实学习以推断未发生的交互数据,进而丰富交互数据的多样性,帮助提升模型训练的样本效率;自监督状态表示学习过程:通过自监督学习方法训练状态编码器,通过将状态编码器网络从Q-网络中分离出来,并设置自监督学习辅助任务增加额外的网络训练损失,以改善状态表示,实现从高维交通数据中提取有效特征,进而提高模型的样本效率;S300、将不公平程度引入状态向量和奖励函数中实现公平的交通信号灯调度。

全文数据:

权利要求:

百度查询: 吉林大学 基于多智能体强化学习的多路口交通信号灯公平控制方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。