Document
拖动滑块完成拼图
个人中心

预订订单
服务订单
发布专利 发布成果 人才入驻 发布商标 发布需求

在线咨询

联系我们

龙图腾公众号
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 恭喜天津市政工程设计研究总院有限公司柯水平获国家专利权

恭喜天津市政工程设计研究总院有限公司柯水平获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网恭喜天津市政工程设计研究总院有限公司申请的专利基于客流数据和强化学习的综合客运交通枢纽客流疏散方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119048318B

龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411534433.5,技术领域涉及:G06Q50/40;该发明授权基于客流数据和强化学习的综合客运交通枢纽客流疏散方法是由柯水平;孙峣;白子建;马佳兴;肖田;郑利;辛秀颖;贾宁;齐钦;申婵;任年鲁;伊振鹏;王焕栋;崔力中;武毅设计研发完成,并于2024-10-31向国家知识产权局提交的专利申请。

基于客流数据和强化学习的综合客运交通枢纽客流疏散方法在说明书摘要公布了:本发明公开一种基于客流数据和强化学习的综合客运交通枢纽客流疏散方法,包括:采集某站点实时状态数据并进行数据预处理;将综合客运交通枢纽客流疏散问题描述为马尔可夫博弈过程;包括定义全局状态空间、定义局部状态空间、定义动作空间和设置奖励函数;构建交通枢纽客流疏散模型,所述交通枢纽客流疏散模型由Actor网络和Critic网络组成;在交通枢纽客流疏散模型中引入异步动作协同机制并通过训练得到稳定的交通枢纽客流疏散模型;基于稳定的交通枢纽客流疏散模型实现对站点A的客流疏散。本发明方法具有灵活性和智能化特点,能够有效应对客流高峰时段的挑战,提升交通枢纽的运行效率和乘客出行体验。

本发明授权基于客流数据和强化学习的综合客运交通枢纽客流疏散方法在权利要求书中公布了:1.一种基于客流数据和强化学习的综合客运交通枢纽客流疏散方法,针对某一站点A,其特征在于,包括:S1.采集站点A的实时状态数据并进行数据预处理,实时状态数据包括实时客流量数据、相关站点数据和相关智能体数据,所述智能体包括公交车和地铁;S2.将综合客运交通枢纽客流疏散问题描述为马尔可夫博弈过程;包括定义全局状态空间、定义局部状态空间、定义动作空间和设置奖励函数;所述全局状态空间包括乘客状态、相关站点状态和相关智能体运行状态;局部状态空间包括站点乘客拥挤度、当前发车时间间隔和其剩余运力;动作空间定义为一个连续的范围[0,1]与最大发车时间间隔的乘积;全局状态空间由向量Sall=[sp,ss,sb]表示,表示疏散过程中涉及环境中所有智能体共享的状态空间;乘客状态用向量sp=[pht,phtp,pjwt]表示;其中pht为相邻决策点时间内火车h到达站点A的时间,phtp为相邻决策点时间内火车h到达站点A后下车的乘客数;pjwt为乘客j在站点A滞留时间;其中相邻决策点时间=前车结束服务时间-当前车开始服务时间;相关站点状态用向量ss=[szcd]表示;其中szcd=szwpszpc为相邻决策点时间内相关站点z的乘客拥挤度;szwp为相邻决策点时间内相关站点z的候车乘客数,szpc为相关站点z的最大乘客容量;相关智能体运行状态用向量sb=[bieb,bid]表示;其中bieb=bidb-bide为相邻决策点时间内智能体i的发车时间间隔;bid为相邻决策点时间内智能体i的剩余运力;bidb和bide分别智能体i的发车时间和到达时间;每个智能体的局部状态空间表示其自身感知到的环境信息,每个智能体的局部状态空间由向量si=[szcd,bieb,bid]表示;动作空间定义为:Aall=[a1,a2,a3,...,ai],i=1,2,3...I,ai∈[0,1];其中每个动作ai表示智能体i选择的发车时间间隔的比例;智能体i的发车时间间隔表示为:Ti=ai·Timax,其中Timax表示智能体i的最大可能发车时间间隔;设定各智能体之间为完全合作,对于智能体i奖励函数定义为: 其中,表示全局状态空间Sall在智能体i执行动作ai后获得的奖励奖励值是1减去的平均乘客滞留时间,平均乘客滞留时间越小奖励值越大;J为一个决策周期内的乘坐智能体i的总乘客数;为正整数;RtSall,Aall为I个智能体的总奖励;公式1用于评估某个智能体i的动作ai对整个综合客运交通枢纽客流疏散效率的贡献度;pjwt为乘客j在车站滞留时间;S3.构建交通枢纽客流疏散模型,所述交通枢纽客流疏散模型由Actor网络和Critic网络组成;S4.在交通枢纽客流疏散模型中引入异步动作协同机制并通过训练得到稳定的交通枢纽客流疏散模型;使用集中式训练分布式执行CTDE框架进行交通枢纽客流疏散模型的训练,智能体通过拿到其他智能体的全局状态空间以优化自己的局部策略;在分布式执行过程中,智能体仅使用自己的局部状态空间进行决策;每个智能体根据Actor网络进行决策;另一方面,每个智能体Critic网络评估状态的值函数用以指导更新优化Actor网络;具体训练过程如下:S401.随机初始化所有状态;初始化Actor网络和Critic网络的所有参数;初始化超参数:学习率α、折扣因子γ、软更新参数τ和随机采样经验样本大小b;初始化经验回放池D;S402.每个智能体与环境交互,将当前观测到的局部状态空间si输入在线Actor网络,得到动作ai,ai对应的Actor网络内的参数为具体如公式3所示;执行选择的动作ai,观察环境反馈的奖励和下一个状态s′i;经过n次迭代后ai、和s′i共同组成经验样本B; 其中∈为噪声项,使用高斯噪声;S403.将经验样本存储到经验回放池中,每条经验样本由S表示,具体如公式4所示;S={s,s′,a1,a2,…,aI,r1,r2,…,rI}4;其中s={s1,s2,...sn,Sg}表示所有智能体对当前环境状态的观测向量,Sg表示其他全局状态;s′表示所有智能体对环境下一状态的观测向量;当经验样本数量达到阈值D时,从经验回放池中随机采样若干经验样本b,用于训练Actor网络和Critic网络;r1,r2,...,rI指第1到第I个智能体获得的奖励;a1,a2,...,aI指第1到第I个智能体执行的动作;S404.集中式训练:从经验回放池中随机采样若干经验样本b,使用s,a和s′,a′分别作为在线Critic网络和目标Critic网络的输入,分别输出状态值函数和其中a={a1,a2,...,aI},a′由目标Actor网络计算输出;利用环境中智能体的全局状态空间和动作空间中心化训练自身的Critic网络;以时序差分误差构建Actor网络和Critic网络的MSE损失函数,然后利用梯度下降更新Critic网络的参数φi;具体的损失函数及梯度如公式5和6所示: 其中b为随机采样经验样本的大小;LiCritic为Critic网络的损失函数;ri表示第i个智能体获得的奖励;表示梯度运算符;S405.分布式执行:在计算自身的Actor网络的前向传播时,每个智能体只将自身的局部状态空间si作为在线Actor网络的输入,输出一个确定性动作ai,即计算时序差分误差的MSE损失函数并计算关于Actor网络的参数θi的梯度,然后利用梯度下降更新参数;损失函数及梯度如公式7和9所示: 其中I为智能体的数量; S406.对目标Actor网络和Critic网络进行软更新,如公式10和11所示: 其中,LiActor为Actor网络的损失函数,为软更新后Critic网络的参数;为软更新后Actor网络的参数;S407.重复S404-S406,直到Actor网络和Critic网络训练稳定,完成交通枢纽客流疏散模型的训练;异步动作协同机制指每个智能体在完成自己的动作后,能够立刻向其他智能体请求数据,并立即进行网络参数更新;具体过程为:假设智能体agenti的第x次决策的动作未完成,得不到第x次的奖励其他智能体agent-i在当前时间步决策时,只能请求到智能体agenti第x-1次决策的完整数据,来完成自己策略的更新,如公式12所示: 其中,表示第x-1次智能体i的局部状态空间,表示第x-1次智能体i的动作,表示第x-1次智能体i的奖励;S5.基于稳定的交通枢纽客流疏散模型实现对站点A的客流疏散。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津市政工程设计研究总院有限公司,其通讯地址为:300051 天津市和平区营口道239号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。