首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Deep Q-network深度强化学习的单件作业车间调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:郑州轻工业大学

摘要:本发明属于生产计划技术领域,具体涉及一种基于DeepQ‑network深度强化学习的单件作业车间调度方法,包括以下步骤:1采用析取图的方法对作业车间调度环境进行建模,将调度决策问题转换为序贯决策问题,建立马尔科夫五元组模型,使用深度强化学习对该模型进行求解;2从作业车间调度的析取图环境中提取当前的状态;3采用卷积神经网络对动作值函数和目标值函数进行拟合;4采用18种启发式调度规则,作为强化学习的代理动作;5设计奖励函数对整个调度决策进行评估,使用DQN算法更新动作值函数的权重参数;6进行状态转移;7目标值函数的网络参数更新;本发明可以快速处理作业车间的调度问题,具有实时性强和灵活性高的优点。

主权项:1.一种基于DeepQ-network深度强化学习的单件作业车间调度方法,其特征在于,包括以下步骤:1采用析取图的方法对作业车间调度环境进行建模,将调度决策问题转换为序贯决策问题,建立起马尔科夫五元组ε={S,A,S′,γ,R}模型,依据最小化最大完工时间作为该模型的性能评价指标,使用深度强化学习对该模型进行求解;2从作业车间调度的析取图环境中提取当前的状态s∈S;状态s是由一个三通道的矩阵构成,三个矩阵分别为加工时间矩阵、机器矩阵和工序加工开始时间矩阵;3构建动作值函数Qs,a和目标值函数采用卷积神经网络对动作值函数进行拟合Qs,a;θ和目标值函数进行拟合并对两个值函数进行初始化Qs,a;θ0、其中,θ为动作值函数卷积神经网络内部权重w和偏值b的集合,θ-为目标值函数卷积神经网络内部权重w-和偏值b-的集合;4采用18种启发式调度规则,作为强化学习的代理动作a,其中a∈A;根据待加工工件建立每台机器的任务集,将全局的状态输入卷积神经网络中,使用softmax函数将卷积神经网络输出转变为每个启发式规则的概率,再根据概率P进行动作选择时,为了确保调度策略能够收敛并且具有跳出局部最优解的能力,在当前决策中加入不确定性来设计工作选择机制,将选择最大概率动作a=maxP和按照均匀概率分布进行动作选择a=randomP进行结合;该动作选择机制中存在人为设定的超参数β和随即生成的自然数d,d∈0,1,当d小于等于超参数β时,选择概率最大的启发式调度规则,当d大于超参数β时,按照均匀概率分布选择启发式调度规则,根据选定的规则从任务集中选取工件安排到相应的机器上进行加工,即有: 5设计奖励函数Rt对整个调度决策进行评估,并使用DQN算法更新动作值函数的权重参数θ,实现调度决策的更新;在奖励函数设计方面,主要考虑最小化最大完工时间这一个单独的性能指标,由于不同的调度问题导致调度得到的最小化最大完工时间不同,为了能统一对即时行为进行评价,通过下式将对最小化最大完工时间的优化转换为对机器利用率的优化: 式中,Mk为第k台机器,Ck为机器Mk加工结束的时间,Pi,j为加工工件Ji的第j道工序的时间;定义即时奖励为:rt=Ukt-Ukt-1预期目标值函数的计算公式为: 使用最小化平方损失函数的随机梯度下降的方式进行更新动作值函数的参数θ,其损失函数的计算公式为:LDQN=YtDQN-Qs,a;θt2参数θ的更新公式为: 6进行状态转移Ps′|s,a,并将状态s、动作a、奖励r和下一步的状态s′存储到记忆池当中;由状态s执行动作a经过状态转移,更新车间环境,提取状态s′,将状态s、动作a、奖励r和下一步状态s′依次存储到记忆池当中;7目标值函数的网络参数更新;当记忆池存储满后智能体开始利用历史数据对目标值函数的网络参数进行更新,每隔C步从记忆池当中随机抽取batch_size条历史数据进行目标值函数的参数θ-的更新,更新的公式如下:

全文数据:

权利要求:

百度查询: 郑州轻工业大学 一种基于Deep Q-network深度强化学习的单件作业车间调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。