恭喜哈尔滨工业大学邱剑彬获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜哈尔滨工业大学申请的专利一种自动化集装箱码头AGV智能动态调度方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118504866B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410520911.0,技术领域涉及:G06Q10/0631;该发明授权一种自动化集装箱码头AGV智能动态调度方法是由邱剑彬;王斐;毕艳楠;施威杰;秦晨辉;王桐设计研发完成,并于2024-04-28向国家知识产权局提交的专利申请。
本一种自动化集装箱码头AGV智能动态调度方法在说明书摘要公布了:本发明属于自动化集装箱码头资源调度优化技术领域,具体涉及一种自动化集装箱码头AGV智能动态调度方法,包括以下步骤:步骤一:根据自动化集装箱码头的不同功能分模块进行仿真建模;步骤二:通过事件逻辑关系连接各个不同的功能模块;步骤三:搭建C‑DQN多智能体深度强化学习算法框架;步骤四:构建马尔可夫决策过程;步骤五:对C‑DQN多智能体深度强化学习模型进行训练;步骤六:将训练好的模型包装为在线实时调度系统,参与工作的设备包括码头前沿装卸设备、水平运输设备、堆场作业设备。本发明将码头装卸作业分割为多个模块分别建模,对多辆AGV进行控制,实现最小化AGV冲突等待时间的集装箱作业序列求解。
本发明授权一种自动化集装箱码头AGV智能动态调度方法在权利要求书中公布了:1.一种自动化集装箱码头AGV智能动态调度方法,其特征在于:包括以下步骤: 步骤一:根据自动化集装箱码头的不同功能分模块进行仿真建模; 所述步骤一中自动化集装箱码头在进行装卸作业时,参与工作的设备包括码头前沿装卸设备、水平运输设备、堆场作业设备; 其中,根据自动化集装箱码头不同装卸设备的工作流程,可分别建模为: 岸桥模块,负责模拟船舶与AGV之间集装箱的装卸工作; 场桥模块,负责模拟堆场与AGV之间集装箱的装卸工作; AGV模块,负责模拟AGV的集装箱运输工作; AGV排队管理器,负责管理多辆AGV在船舶泊位与堆场的工作先后顺序; AGV动作选择器,负责与外部算法相沟通,给AGV下达工作指令; 任务汇报模块,负责对AGV的决策做出评价并汇报给操作人员; 所述步骤一中还对自动化集装箱码头的集装箱装卸任务进行建模,将不同的集装箱任务抽象为一个五元组: Task_information=[‘Container’,‘Loadingorunloading',‘Quaycranesnumber’,‘Fieldcranesnumber’,‘Containertonnage']1 其中,‘Container'表示该集装箱任务的编号,‘Loadingorunloading’表示该集装箱任务的装卸类型,‘Quaycranesnumber'表示与该集装箱任务相关的岸桥编号,‘Fieldcranesnumber'表示与该集装箱任务相关的场桥编号,‘Containertonnage’表示该集装箱的重量级别; 步骤二:通过事件逻辑关系连接各个不同的功能模块; 所述步骤二中分析步骤一的自动化集装箱码头仿真模型各个模块之间的工作关系,找到各个模块之间的相互作用与逻辑连接,将这些逻辑关系用事件进行描述;通过事件的激活与捕捉实现各个模块之间的通信,通过时延函数来模拟各个模块的工作过程,各个模块之间并行运行来模拟码头的各项活动,实现了自动化集装箱码头的仿真运行; 步骤三:搭建C-DQN多智能体深度强化学习算法框架; 所述步骤三包括以下步骤: 首先,构建C-DQN多智能体深度强化学习算法框架,C-DQN多智能体深度强化学习算法由预测网络与目标网络构成; 其中,预测网络用来输出智能体当前状态下各个动作的价值Q,目标网络用来输出智能体下一个状态的动作最大价值Qtarget; 然后,用掩码处理预测网络与目标网络输出的动作价值Q,屏蔽掉不符合规则的动作;其中掩码是一串0-1数组,维数大小与神经网络模型的动作输出维数相同;掩码中,符合规则的动作所对应的掩码位置为1,不符合规则的动作所对应的掩码位置为0,将神经网络的输出用掩码处理,掩码位置为1处的动作价值不变,掩码位置为0处的动作价值替换为极小值; 接着,运用固定步长变贪心率的贪心策略选取AGV的动作,生成一个随机数; 当随机数小于贪心率ε,用Softmax函数选择预测网络中输出价值最大的动作; 当随机数大于贪心率ε时,AGV随机选取一个符合规则的动作; 在C-DQN多智能体深度强化学习算法模型训练一定次数后,逐步提高贪心率ε的数值,使得神经网络随机选取动作的概率变小,模型开始输出确定的动作; 再然后,将AGV完成任务的各项信息作为样本存储在经验回放缓存区当中,采用集中学习分布执行的方式进行训练;在训练时对全部智能体的状态与环境信息进行训练,在输出决策时使每个智能体单独进行判断,输出符合当前环境状态的决策动作,经验回放缓存区的样本采取混合了多个智能体状态信息的形式,如下: si,ai,ri,s′1,s′2,...,s′n2 其中,i表示智能体的序号,si表示智能体i执行动作前的状态,ai表示智能体i执行的动作,ri表示智能体i执行完动作后所获得的奖励,s′1,s′2,...,s′n分别表示当智能体i开始执行动作ai时,剩余的智能体执行完其各自的当前动作后的状态; 最后,每当神经网络模型需要进行训练时,便从经验回放缓存区当中随机抽取一批量的样本进行学习,根据样本信息,预测网络输出当前动作的价值信息为:Qsi,ai;θ; 其中,θ表示预测网络的参数信息,目标网络综合多个智能体的信息,输出目标价值设定为: 其中,γ表示折扣因子,θ′表示目标网络的参数信息,根据两个神经网络得到的动作价值,采用均方损失函数来衡量差距程度,从而进行梯度反向传播以更新网络参数,该均方损失函数如下: loss=E[Qtarget-Qsi,ai;θ2]4 其中,E表示预设的一个随机变量的平均值; 步骤四:构建马尔可夫决策过程; 所述步骤四包括以下步骤: 首先,构建C-DQN多智能体深度强化学习的状态空间,状态空间包括: 集装箱任务状态信息,1表示尚未完成、0表示已完成; AGV任务信息,该AGV所选择的集装箱任务; AGV进度信息,0表示该AGV处于等待状态、0.5表示AGV处于取箱过程中、1表示AGV处于放箱过程中; AGV时间信息,AGV处于当前任务状态经历的时间; 装卸设备工作信息,0表示岸桥或场桥未工作、1表示岸桥或场桥正在工作; 装卸设备时间信息,岸桥或场桥处于当前工作状态经历的时间; 吨位信息,岸桥或场桥所放置的最后一个集装箱的重量; 其中,当自动化集装箱码头的装卸设备增加时,状态空间的维数相应增加; 然后,构建深度强化学习的动作空间,动作空间包括全部的集装箱任务与一个等待动作,动作空间的维数为N+1,其中N为集装箱任务的数量; 接着,为了体现深度强化学习中多智能体之间的博弈合作关系,将AGV在工作过程的等待时间作为了优化目标,如下: 当AGV进行作业,计算奖励基础为20-twaiting10,其中waiting为AGV在一次任务当中的等待时长; 当AGV进行等待动作,给予惩罚-1.5; 当AGV选取的动作符合翻箱规则,奖励在原有的基础上+3; 当AGV选取的动作不符合翻箱规则,奖励在原有的基础上-1; 其中,优化目标的奖励函数表示为: 最后,构建神经网络的参数结构;预测网络与目标网络均采用三层网络结构,第一层网络含有128个神经元,第二层网络含有64个神经元,网络之间采用全连接的方式,优化器采用Adam优化器,采用线性整流函数ReLU作为激活函数,如下: 并且,折扣因子γ采用经验公式求得,其中设定L为希望智能体接下来考虑的步数,表示为: 步骤五:对C-DQN多智能体深度强化学习模型进行训练; 所述步骤五中包括以下步骤: 首先,初始化自动化集装箱码头仿真模型的初始状态,将初始状态输入到C-DQN多智能体深度强化学习算法模型当中,用掩码处理后得到当前AGV的任务选择; 其次,将该任务通过AGV动作选择器输入到自动化集装箱码头仿真模型当中,AGV执行该动作,AGV模块开始工作,与岸桥模块、场桥模块、AGV排队管理器相互作用; 然后,当AGV执行完当前动作后,通过AGV动作选择器与外部算法进行交互,记录当前状态、执行任务、所得奖励、下一状态,存储在暂时的元组当中,元组计数器加一; 所述步骤五中还包括以下步骤: 先判断元组中的数据满足组成一个样本的全部条件,将该样本存储在经验回放缓存区当中,从元组中删除当前样本,元组计数器减一; 或判断元组中的数据不满足组成一个样本的全部条件,执行该智能体的下一个任务,同时等待其他智能体执行完其当前动作,将其信息记录在元组当中,并与之组合为样本; 接着,判断C-DQN多智能体深度强化学习算法的经验回放缓存区填满,则C-DQN多智能体深度强化学习算法模型开始训练,在经验回放缓存区当中随机选取一批量样本,分别输入到预测网络与目标网络之中,将所得的Qsi,ai;θ与Qtarget通过均方损失函数求得差距程度Loss并反向传播梯度,用Adam优化器对预测网络的参数进行优化; 或判断C-DQN多智能体深度强化学习算法的经验回放缓存区未被填满,则继续运行自动化集装箱码头仿真模型; 所述步骤五中还包括以下步骤: 先判断C-DQN多智能体深度强化学习算法的训练次数达到设定值,则将预测网络的模型参数复制到目标网络中; 或判断C-DQN多智能体深度强化学习算法的训练次数未达到设定值,则继续运行自动化集装箱码头仿真模型; 再接着,判断还有未完成的集装箱任务,则将当前状态输入到C-DQN多智能体深度强化学习算法模型当中,用掩码处理后得到下一个集装箱任务,并由AGV动作选择器交由AGV进行工作; 或判断无未完成的集装箱任务,则此轮集装箱任务全部完成,由任务汇报模块输出本轮AGV的任务调度信息与获得的总奖励; 最后,判断C-DQN多智能体深度强化学习算法模型的训练次数;当达到一定训练次数后,开始逐步增加贪心率ε;当训练次数达到设定的最大值后,停止训练,输出最终的AGV调度方案与奖励值,保存预测网络的模型参数并输出; 步骤六:将训练好的模型包装为在线实时调度系统。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。