买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:河南科技大学
摘要:一种基于D3QN的风电叶片大梁板生产智能排程方法,具体步骤如下:构建多目标协同优化模型;进行马尔科夫决策过程的建立和两组经验回放池的设计;判断经验回放池中的样本是否蓄满,若未蓄满则重复上一步,若蓄满则执行下一步;基于D3QN算法,构建估值网络和目标值网络;从两组经验回放池中按比例随机提取多条样本,对目标值网络参数进行训练和更新;判断当前估值网络是否收敛,若不收敛,则返回上一步,若收敛,则执行下一步;智能体使用训练好的改进D3QN算法,择优排产,反复执行,从而完成风电叶片大梁板智能生产排程。本发明一方面避免优秀样本的弃用,另一方面加快收敛速度,并提升学习策略的速度。
主权项:1.基于D3QN的风电叶片大梁板生产智能排程方法,其特征在于,具体步骤如下:S1、构建多目标协同优化模型;S2、进行马尔科夫决策过程的建立和两组经验回放池的设计,其中马尔科夫决策过程的建立包括建立状态空间、动作空间和奖励函数,具体方法为:S21、状态空间:选取5个关键特征来描述该问题的状态,状态特征1代表开动机器的平均利用率,状态特征2代表开动机器平均利用率的标准偏差,状态特征3表示所有订单的平均加工完成率,状态特征4表示所有订单的平均加工完成率的标准差,状态特征5表示所有订单的总完成率;S22、动作空间:在选择排程动作时,动作选取包括套产品-生产区域、卷材-模具、模具-生产设备之间的组合关系,其中对于卷材和设备分别设置5条和2条排程规则,将上述两个规则集两两组合,得到10条组合规则,作为深度强化学习算法解决风电叶片大梁板生产排程问题的动作;S23、奖励函数:奖励函数定义如下:r1t=f1t+1r2t=f2t+1其中,r1t表示当期开动设备利用率与奖励之间的关系,r2t表示订单履约率与奖励之间的关系,在决策时刻t获得的即时奖励如以下公式:rt=1000r1t+1000r2t最终奖励函数表示为R,包含U个决策时刻获得奖励的总和,如以下公式: 其中,U表示智能体所做决定的总时刻数;S3、判断经验回放池中的样本是否蓄满,若未蓄满则重复步骤S2,若蓄满则执行步骤S4;S4、基于D3QN算法,构建估值网络QEs,a;θ和目标值网络QTs,a;θ′;S5、从两组经验回放池中按比例随机提取多条样本,对目标值网络参数进行训练和更新;S6、判断当前估值网络是否收敛,若不收敛,则返回步骤S5,若收敛,则执行步骤S7;S7、智能体使用训练好的改进D3QN算法,择优排产,反复执行,从而完成风电叶片大梁板智能生产排程。
全文数据:
权利要求:
百度查询: 河南科技大学 一种基于D3QN的风电叶片大梁板生产智能排程方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。