买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:山东大学
摘要:本发明公开了一种基于深度强化学习的货箱堆叠优化方法,包括如下步骤:根据货箱堆叠顺序及提箱优先级,设计m个环境状态变量来代表每个栈的堆存状态,再根据当前步骤使用的n个栈状态及其待堆叠的货箱状态,计算得到当前时刻的状态矩阵S;通过设计特征提取网络,进一步提取状态矩阵S中的特征,得到特征矩阵T;将特征矩阵T作为堆叠决策网络的输入数据,输出为各个栈的概率分布,进而选择一个栈堆叠货箱;使用深度强化学习算法进行特征提取网络和堆叠决策网络的训练,训练时采用决策评价网络对输出进行评价,优化堆叠决策并更新参数。本发明所公开的方法能够适应货箱数和栈最高堆叠层数发生变化的情况,以达到提高货箱堆叠和提取效率的目的。
主权项:1.一种基于深度强化学习的货箱堆叠优化方法,其特征在于,包括如下步骤:步骤一,状态获取:根据货箱堆叠顺序及提箱优先级,设计m个环境状态变量来代表每个栈的堆存状态,再根据当前步骤使用的n个栈状态及其待堆叠的货箱状态,计算得到当前时刻的n×m维状态矩阵S,并将其传递给特征提取网络;步骤二,特征提取:通过设计特征提取网络,提取状态矩阵S中适合于堆叠决策网络决策的特征,得到n×p维的特征矩阵T,并将其传递给堆叠决策网络;步骤三,堆叠决策:首先设计堆叠决策网络的结构,然后再将特征矩阵T作为堆叠决策网络的输入数据,输出为各个栈的概率分布,进而选择一个栈堆叠货箱;步骤四,堆叠策略训练:使用深度强化学习算法进行特征提取网络和堆叠决策网络的训练,采用决策评价网络对特征提取网络和堆叠决策网络的输出进行评价,优化堆叠决策并更新特征提取网络和堆叠决策网络的参数,通过训练后的特征提取网络和堆叠决策网络进行特征提取和堆叠决策;步骤一中,环境状态变量的个数m=6,具体包括如下:(1)栈中已堆叠货箱数占最高堆叠层数的百分比;(2)下一个要堆放的货箱优先级;(3)待堆叠货箱中的最高优先级;(4)栈优先级,等于栈最顶部货箱的优先级;(5)待堆叠货箱中优先级高于栈优先级的个数;(6)栈中货箱的无序堆叠数;步骤二中,特征提取网络为基于自注意力机制的特征提取网络,将状态矩阵S进行变换得到特征矩阵T的计算公式如下: ; ;其中,为特征矩阵,Attention表示自注意力机制层,SoftMax为激活函数,Q、K和V分别是状态矩阵S通过不同的权重矩阵变换得到的矩阵;、和分别是用于生成Q、K和V的权重矩阵,均为可学习的参数;分别表示权重矩阵中最后一维的维度大小;步骤三中,堆叠决策网络包括多层感知机网络、Mask层和SoftMax函数,所述多层感知机网络包括输入层、隐层和输出层,隐层为三层,输入层神经元个数为64,隐层神经元个数分别为128、128和32,输出层的神经元个数为1;所述决策评价网络为多层感知机网络,包括输入层、隐层和输出层,隐层为三层,输入层神经元个数为64,隐层神经元个数分别为128、128和32,输出层的神经元个数为1。
全文数据:
权利要求:
百度查询: 山东大学 一种基于深度强化学习的货箱堆叠优化方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。