恭喜昆明理工大学李冰获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜昆明理工大学申请的专利一种基于强化学习的动态最大压交通信号控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119229669B 。
龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411719359.4,技术领域涉及:G08G1/08;该发明授权一种基于强化学习的动态最大压交通信号控制方法是由李冰;李宏;陆大志;张灵;殷炬元;赵刚;何欣东;杨欣宇设计研发完成,并于2024-11-28向国家知识产权局提交的专利申请。
本一种基于强化学习的动态最大压交通信号控制方法在说明书摘要公布了:本发明涉及一种基于强化学习的动态最大压交通信号控制方法,属于交通技术领域。该方法包括交通流量数据收集和实时交通状态观测;建立动态交通压力参数和上下游压力动态关联的动态最大压交通信号控制方法;建立基于强化学习的动态最大压交通信号控制模型;仿真环境与参数设定及训练和测试动态最大压交通信号控制模型;动态最大压交通信号配时优化策略。本发明结合数据驱动的方法和理论控制模型的优势,基于具有高度自适应特性的深度强化学习技术来优化最大压控制模型。本发明克服了最大压信号控制模型仅以单一压力参数作为压力权重和交叉口上下游压力关联的考虑不足,模型对复杂多变的交通状况适应性更强。
本发明授权一种基于强化学习的动态最大压交通信号控制方法在权利要求书中公布了:1.一种基于强化学习的动态最大压交通信号控制方法,其特征在于,包括以下步骤:步骤1:收集交通流量数据;步骤2:建立动态交通压力参数和上下游压力动态关联的动态最大压交通信号控制方法;步骤3:建立基于强化学习的动态最大压交通信号控制模型;步骤4:设定仿真环境与参数,完成基于强化学习的动态最大压交通信号控制模型训练;所述步骤2包括:步骤2.1:基于可变元胞传输模型,根据自由流密度、拥塞流密度和路段长度,划分出四类动态交通压力参数,表示为: ; ; ; ;其中,为拥塞流密度的压力;为拥塞流密度与自由流密度组合的压力;为结合路段长度下的拥塞流密度的压力;为结合路段长度下的拥塞流密度与自由流密度组合的压力;为拥塞流密度压力;为自由流密度压力;,,表示压力种类;为路段长度;为时间;,为路段编号;步骤2.2:根据上下游相邻交叉口压力动态关联,用上下游关联参数来表征相邻交叉口是否关联,的取值为0和1,其中,0表示不关联,1表示关联;步骤2.3:采用固定相位相序,建立动态交通压力参数和上下游压力动态关联的动态最大压交通信号控制方法,在每个信号周期结束时,根据每个相位的压力占比计算各相位绿灯时间;所述步骤2.3,具体描述如下:首先计算压力权重,在每个时间时,控制器根据所选交通压力参数及上下游关联参数来计算压力权重: ;其中,和为交通压力参数;为压力种类;,,为路段编号;为从路段到路段的车流比例,为起始路段为的所有下游路段的集合;计算车流压力,以最大压压力权重与饱和流率的乘积来表示车流压力,即: ;计算相位压力,为相位编号,每个相位包含若干个车流,因此相位压力等于相位内所包含的所有车流压力之和: ;其中,表示相位内从到转向车流;根据每个相位的压力占比计算各相位绿灯时间为: ;其中,,分别为相位和相位内所包含的所有车流压力之和;为节点编号;,为相位编号;为信号周期;为相位集合;为保证行人过街,设置最小绿灯时间为,同时设置最大绿灯时间为,则相位绿灯时间最终表示为: ;所述步骤3包括:步骤3.1:强化学习智能体,包括状态、动作和奖励的设计;步骤3.2:建立基于强化学习的动态最大压交通信号控制模型,包括时空特征提取模块、DQN动作决策模块和值分解混合网络模块;所述步骤3.1包括:所述动作的设计具体为将划分出的四类动态交通压力参数和上下游关联参数的离散组合作为强化学习动作,通过DQN动作决策出交通压力参数和关联参数之后,将输入到所述动态交通压力参数和上下游压力动态关联的动态最大压交通信号控制方法中,输出各相位绿灯时间;所述状态的设计具体为所述状态包括当前交叉口每个进口道排队车辆数,进口道车辆密度,当前交叉口出口道车辆密度,上一动作和交叉口编号,状态表示为一个状态向量state={,,,,};所述奖励的设计具体为所述奖励为相邻时间步的交叉口排队车辆数与交叉口吞吐量的组合: ;其中,为在时刻状态下交叉口执行动作后获得的奖励,为时刻下一周期的持续时间,为交叉口进口道总排队车辆数,为交叉口车辆吞吐量,为权重系数;所述步骤3.2包括:所述时空特征提取模块,由图注意力网络GAT和门控循环单元GRU组成串联而成,将各交叉口的状态特征输入到所述时空特征提取模块,输出包含邻近交叉口和历史信息的新的交叉口状态特征,具体为:所述图注意力网络GAT具体构建为:输入特征矩阵X,形状为N×F,N为交叉口个数,F为交叉口状态维度;对于每个交叉口a及相邻交叉口b,对应的状态向量为和,计算交叉口a和相邻交叉口b之间的注意力系数为: ;其中,为注意力机制,是一个可学习的参数向量;T表示矩阵转置;LeakyReLU为激活函数;是一个可学习的权重向量;||表示矩阵拼接操作;使用Softmax函数对注意力系数进行归一化,得到相邻交叉口b对交叉口a的注意力权重为: ;其中,为交叉口a和相邻交叉口b之间的注意力系数,为交叉口a和相邻交叉口c之间的注意力系数;exp为自然指数函数;是交叉口a的相邻交叉口集合;c为交叉口编号;将交叉口a的所有相邻交叉口的特征进行加权求和,得到交叉口a的新特征表示,并对新特征向量应用sigmoid函数进行激活,最终输出新的特征矩阵Z: ;其中,为图注意网络学习的包含相邻交叉口信息的新的交通状态,为表示邻居交叉口集合;采用多头注意力机制,每个注意力头都输出各自的注意力系数,因此将多个输出的特征进行拼接得到融合特征: ;其中,为相邻交叉口b对交叉口a的注意力权重,是一个可学习的权重向量,为注意力头编号,,为注意力头总数;所述门控循环单元GRU具体构建为:将图注意力网络输出的各交叉口的新特征作为输入,同时输入一个包含历史流量信息的隐藏状态,获得重置门信号和更新门信号: ; ;其中,为图注意力网络输出的各交叉口的新特征;、、和是要学习的权重矩阵;通过重置门将前一时刻的隐藏状态中的相关信息进行丢弃,并与当前输入的新特征进行结合,获取候选隐藏状态;之后通过更新门,结合前一时刻的隐藏状态和候选隐藏状态获得当前时刻的隐藏状态: ; ;其中,、是要学习的权重矩阵;tanh是双曲正切激活函数,⊙表示元素级乘法;所述DQN动作决策模块具体构建为:将通过所述时空特征提取模块得到的隐藏状态输入到Q网络,获取当前状态下的动作价值函数,为Q网络参数,并通过在每个时间t上选择Q值最高的动作来最大化奖励R;所述值分解混合网络模块包含一个Q函数的求和网络,通过输入所有路口的Q函数来计算全局Q函数: ;其中,为第个路口的Q函数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650031 云南省昆明市一二一大街文昌路68号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。