首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于强化学习的晶圆制造系统炉管区调度方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东华大学

摘要:本发明涉及一种车间调度技术,针对晶圆制造炉管区并行设备批处理加工过程的晶圆设备选择和批次排序与设备维护联合调度优化的问题,提出了一种基于强化学习的晶圆制造系统炉管区调度方法,以最小化最大完工时间和最小化总拖期为目标实现炉管区的组批,晶圆设备选择和批次排序与设备维护联合调度优化问题,基于PPO算法构建组批智能体,设备智能体和排序智能体,引入长短期记忆网络对炉管区调度信息进行记忆和预测,并设计一种预维护区间维护策略。抽取问题约束与优化目标的相关特征并设计奖励函数,结合在线评价‑执行机制,选出每次调度的最优行为决策。能够缩短最大完工时间,减少交货期延误,提高晶圆制造系统炉管区的生产效益。

主权项:1.一种基于强化学习的晶圆制造系统炉管区调度方法,其特征在于,包括如下步骤:步骤1:数据采集:数据采集以生成炉管区调度数据集;步骤1中,数据采集包括炉管区设备数量,设备容量,工艺类型,不同工艺类型加工时间,切换工艺准备时间,晶圆加工层数,当前加工层数,剩余加工层数,到达时间,交货期,根据炉管区的实际数据生成的随机算例作为参数实验的训练集,寻找较优的参数并对模型进行训练;步骤2:构建晶圆制造系统炉管区调度数学模型,设计多目标近端策略优化算法框架,算法调度流程,具体算法设计和基于LSTM的维护调度联合优化策略;步骤2的具体操作为:步骤2.1:构建晶圆制造系统炉管区调度数学模型;晶圆制造系统炉管区调度数学模型的参数符号定义如下:T表示当前调度时刻;M:设备总数,设备索引m∈M;n:晶圆总数,晶圆索引i∈n;f:批次索引,f∈F,F为批次集合;b:批次内晶圆索引,b∈f;B表示设备加工的最大容量,MTm表示设备m的维护时间,PMms表示设备m的预维护区间起始时间,PMme表示设备m的预维护区间结束时间,STpm表示设备m的预维护开始时间,CTpm表示设备m的预维护结束时间,PMm表示设备m的预维护区间长度,PTmhh′表示设备m当前工艺类型h与前一加工类型h′之间的准备时间;Li表示晶圆i所需加工的总层数,wi表示晶圆lot当前加工层数,wi={1,2,…,Li},H表示工艺类型总数,hi表示晶圆i的工艺类型,工艺类型hi={1,2,…,H};Zim表示晶圆i在设备m上所加工的总层数,CTi表示晶圆i的完工时间,EDi表示晶圆i的交货期;ATiw表示晶圆i第w层的到达时刻,WTiw表示晶圆i第w层的等待时间,STiw表示晶圆i第w层的开始加工时间,PTiw表示晶圆i第w层的加工时间,CTiw表示工件i的第w层的完工时间,EDiw表示晶圆i第w层的交货期,HTiw表示晶圆i的第w层的后续加工时间;WTf表示批次f的等待时间,STf表示批次f的开始加工时间,CTf表示批次f的完工时间,PTf表示批次f的加工时间;决策变量Yiwfm,如果晶圆i的w层属于批次f并在设备m上加工,则等于1,否则等于0;设备前后加工工艺类型变量Xhh’,当设备当前加工工艺类型h与前一加工工艺类型h'不同时等于1,否则等于0;炉管区调度模型的目标函数为公式1和公式2:f1=min[maxCTi,i∈n]1 式1和式2表示炉管区调度以晶圆lot最大完工时间最小和总拖期时间最小为目标;晶圆制造系统炉管区调度数学模型约束条件如下: PTf=PTiw5PTmhh'=Xhh'PTmhh'6CTiw=ATiw+WTiw+PTiw+PTmhh’Xhh’+HTiw7ATi,w+1≥CTiw8WTf=max{WTiw,i∈f}9STpm≥CTf10STf≥CTpm11式3表示批次f中晶圆i第w层加工设备的唯一性;式4表示设备加工的最大容量限制;式5表示批次f的加工时间为晶圆i的第w层的加工时间;式6表示设备的准备时间与前后工艺的类型相关,工艺类型相同无工艺准备时间,工艺不同时则存在工艺准备时间;式7表示第i个晶圆第w层的完工时间由到达时间、等待时间、加工时间、生产准备时间和后续加工时间的和组成;式8表示晶圆i下一层的到达时间要大于上一层的完工时间;式9表示批次f的等待时间等于批次f中所有晶圆的等待时间的最大值;式10表示预维护的开始时间大于设备维护前加工批次的完工时间;式11表示设备维护后加工批次的开始加工时间大于预维护的完成时间;步骤2.2:设计多目标近端策略优化算法框架;步骤2.2:多目标近端策略优化算法框架:生成一组均匀分布权重向量,每个向量ωk=ω1,ω2分别表示两个目标对应奖励r=r1,r2的权重系数,且满足ω1,ω20,ω1+ω2=1;对每个ωk训练一定次数后保存ωk对应的模型参数,并切换到与ωk欧氏距离最小的下一权重向量ωk+1进行训练,直到所有权重向量对应的智能体参数都被保存;针对晶圆组批,考虑设备预维护的加工设备选择和设备上加工批次排序三个子问题,分别设计BA组批智能体,EA设备智能体和SA排序智能体三个智能体与环境进行交互,BA通过读取动态到达的晶圆信息,依据交货期和到达时间接近的规则选取晶圆实现相同工艺类型的晶圆组批;EA通过读取设备的预维护区间,依据维护策略选择合适的时间进行设备维护;SA兼顾批次内任务的紧急程度和使晶圆不同层尽量在相同设备上加工的约束进行综合决策;在此基础上,本方法针对维护调度联合优化问题引入LSTM对炉管区调度信息进行记忆和预测,通过输出交互向量,SA可以读取BA和EA的决策和炉管区状态,实现智能体之间的交互;每个智能体的策略模块Actor,通过深度神经网络实现从炉管区环境状态到组批,维护和排序动作的映射;三个智能体Actor与环境进行交互并学习经验优化策略;三个智能体共享一个全局Critic和一个全局LSTM网络,建立从炉管区全局状态与调度决策到调度评价的映射;步骤2.3:算法调度流程的设计;步骤2.3:多目标近端策略优化算法调度流程:根据炉管区的实时状态安排待加工的晶圆进行组批和加工,同时考虑设备的预维护区间,在接近设备预维护区间时,考虑当前的批次状态和设备状态,选出满足设备在预维护区间内完成维护的排序加工策略,实现维护调度的联合优化;随着动态到达的晶圆和设备加工状态的变化,需要实时的对晶圆进行组批,同时将批次安排到空闲设备上进行加工,不断重复上述过程直至所有晶圆加工完成;具体步骤如下:步骤2.3.1:初始化炉管区调度环境;步骤2.3.2:初始化组批智能体,设备智能体和排序智能体,这三个智能体的网络和参数的初始化可以是同步的;步骤2.3.3:组批智能体观测炉管区晶圆到达时间,晶圆类型,晶圆当前加工层数的状态信息;步骤2.3.4:组批智能体通过神经网络将炉管区状态信息映射成为晶圆组批的决策,进行晶圆组批;步骤2.3.5:执行晶圆组批的决策后,炉管区环境部分状态信息发生改变;步骤2.3.6:设备智能体观测炉管区的设备状态信息;步骤2.3.7:判断当前时间是否有设备接近自身的预维护区间,如果没有则炉管区环境部分状态信息发生改变,如果有则满足的设备使用维护调度协同策略,进入步骤2.3.10;步骤2.3.8:排序智能体观测炉管区的批容量,批类型,批最小交货期的状态信息;步骤2.3.9:排序智能体通过神经网络将炉管区状态信息映射成为批次排序加工的决策,进行批次排序的决策;步骤2.3.10:判断全部晶圆是否加工完成,如果加工完成则结束;否则转到步骤2.3.3;步骤2.4:具体算法设计,包括搭建强化学习环境,针对问题特点进行三个智能体的设计,具体如下:步骤2.4.1:晶圆制造系统炉管区调度状态空间的设计;智能体通过状态信息的变化感知炉管区环境的变化,且调度决策依赖于输入的状态信息;根据炉管区调度约束与优化目标相关的状态特征设计状态矩阵S;炉管区调度包括任务,设备和批次3个对象;因此用S=[S1,S2,S3]来对炉管区状态进行表示;其中S1=[S1,1,S1,2,S1,3,S1,4,S1,5,S1,6,S1,7,S1,8]为待组批晶圆的状态信息,S1,i=[S1,i,1,S1,i,2,S1,i,3,S1,i,4,S1,i,5,S1,i,6,S1,i,7,S1,i,8]为晶圆i的特征向量;S2=[S2,1,S2,2,S2,3,S2,4]为设备相关的状态信息,S2,m=[S2,m,1,S2,m,2,S2,m,3,S2,m,4]为设备m的特征向量;S3=[S3,1,S3,2,S3,3,S3,4,S3,5]为批次相关的状态信息,S3,f=[S3,f,1,S3,f,2,S3,f,3,S3,f,4,S3,f,5]为批次f的特征向量;其中,任务状态参数及表达式包括8个,分别为:晶圆权重S1,i,1=ηi、晶圆到达时间S1,i,2=ATi、完工时间S1,i,3=CTi、晶圆类型S1,i,4=hi、组批达成率S1,i,5=f、晶圆当前加工层S1,i,6=wi、完成层数比S1,i,6=wi、交货期延误S1,i,8=DTi-CTi;设备状态参数及表达式包括4个,分别为:设备利用率当前加工类型S2,m,2=hm、准备时间S2,m,3=PTmhh'、维护状态S2,m,4=Sm;批次状态参数及表达式包括5个,分别为:平均完工时间批容量占比批类型S3,f,3=fh、最小交货期S3,f,4=min[fDTi]、交货期延误组批智能体局部观测的状态矩阵为:SB=[S2,S3]12设备智能体局部观测的状态矩阵为:SE=[S2,S3]13排序智能体局部观测的状态矩阵为:SS=[S1,S2,S3]14其中,ηi表示晶圆i的任务权重;ATi表示晶圆i的到达时刻;EDi表示晶圆i的完工时间;CTmax表示最大完工时间;CTim表示晶圆i现在设备m上的完工时间;hm表示设备m的加工工艺类型;Sm表示设备的维护状态;bf表示批次f内的晶圆数量;fh表示批次f的工艺类型,fEDi表示批次f内晶圆的交货期;步骤2.4.2:晶圆制造系统炉管区调度动作空间的设计;组批智能体动作空间:设定数量为q的组批缓冲区,工艺类型相同的晶圆进行组批;按以下规则进行组批:动作1:到达时间接近的组批ATC;动作2:交货期接近的组批DTC;设备智能体动作空间:根据设备预维护时间区间来选择是否进行维护;动作1:进行设备维护;动作2:不进行设备维护;排序智能体动作空间:当有空闲设备时,选择所有组批缓冲区中的批次,按以下规则选择批进行加工,选择等待表示不选择批进行加工;动作1:批容量最大的批进行加工;动作2:最早交货期法;动作3:等待时间最长的批进行加工;动作4:加工时间最短的批进行加工;动作5:剩余加工层数最少的批进行加工;动作6:等待,先不进行加工;步骤2.4.3:晶圆制造系统炉管区调度奖励函数的设计;生成一组均匀分布权重向量,每个向量ωk=ω1,ω2分别表示两个目标对应奖励信号r=r1,r2的权重系数,对每个ωk训练一定次数后保存ωk对应的模型参数,并切换到与ωk欧氏距离最小的下一权重向量ωk+1继续进行训练,直到所有权重向量对应的智能体参数都被保存;且满足ω1,ω20,ω1+ω2=1;奖励函数与目标函数密切相关,根据数学模型中的目标函数设计炉管区调度奖励函数;将目标函数按照调度结果和调度过程进行分解,实现对智能体的分步奖励,同时在完成全部加工任务时对智能体进行最终奖励;设计炉管区调度奖励函数R=[Rf,Rs],其中,Rf为最终奖励集合,Rs为分步奖励集合,分别设计如公式15-19所示,BA,EA和SA三个智能体对应的分布奖励分别为rs1,rs2,rs3;分布奖励Rs=[rs1,rs2,rs3]: 最终奖励Rf=[rf1,rf2]: BA总的奖励函数如式20所示:r=rs1+ω1rf1+ω2rf220EA总的奖励函数如式21所示:r=rs2+ω1rf1+ω2rf221SA总的奖励函数如式22所示:r=rs3+ω1rf1+ω2rf222步骤2.5:基于LSTM的维护调度联合优化策略,策略具体步骤如下:由于进行炉管区的维护调度联合优化,需要同时考虑组批的批次状态信息,设备维护的时间,以及满足加工条件的批次的加工时间;因此要加强智能体对炉管区信息的读取,以此选出最优的维护调度策略;在PPO算法基础上,对问题引入LSTM实现炉管区调度信息的记忆和预测,完成三个子智能体之间的交互,实现维护调度的联合优化;在T时刻单个LSTM如下所示更新:Step1.忘记门,将当前炉管区的一些状态和调度信息进行选择性的遗忘,实现方式如式23所示;Step2.输入层门,将炉管区的历史状态信与和组批,维护和排序的调度记录进行记忆,实现方式如式24和式25所示;Step3.更新状态,移除炉管区一些旧的状态和调度信息,增加一些新的状态和调度信息,实现方式如式26所示;Step4.输出层门,对炉管区历史状态信息进行记录并预测信息,实现方式如式27和式28所示;在T时刻单个LSTM如下所示更新:vT=σWv·[gT-1,xT]+bv23pT=σWp·[gT-1,xT]+bp24 oT=σWo·[gT-1,xT]+bo27gT=oT*tanhCT28其中:p,v,o,分别代表输入,遗忘和输出门的计算值;和Ct为记忆细胞候选值及更新后的值;W为输入矩阵;U为循环矩阵;σ代表sigmoid函数;g为最终输出;vT表示当前T时刻遗忘门的输出,Wv表示遗忘门的权重矩阵,gT-1表示前一个LSTM单元的输出,xT表示当前时刻的输入;bv表示遗忘门的偏置向量,pT表示当前时刻输入门的输出,Wp表示输入门的权重矩阵,bp表示输入门的偏置向量,WC表示记忆细胞的权重矩阵,bC表示记忆细胞的偏置向量,oT表示当前时刻的输出,Wo表示输出门的权重矩阵,bo表示输出门的偏置向量,gT表示当前LSTM单元的输出;通过为智能体引入上述LSTM的记忆和预测功能,对炉管区信息进行动态信息融合,加强智能体之间的信息交互,使得前期的炉管区环境状态对后期的环境状态造成一定的影响,而后期的环境状态又会反过来对前期调度的后续调度策略起到一定的指导;智能体调度前,可以从LSTM获取记忆的历史调度信息,实现历史智能体对当前智能体的信息输入,而当前智能体的调度决策信息也会被LSTM记录,未来的智能体决策时可以从LSTM获取当前的决策信息;考虑设备预维护问题,设备需要在预维护时间区间内进行维护,在接近设备预维护区间时,考虑当前的批次状态和设备状态,选出满足设备在预维护区间内完成维护的排序加工策略,进行维护调度的联合优化;给出以下的预维护区间维护策略PIMP:步骤2.5.1:在环境时间更新后,判断是否有设备满足当前时刻T+0.1*PMm≥PMms,若满足,则对该设备采用维护调度协同策略,进入步骤2.5.2,否则不采取策略直接结束,不进行维护;步骤2.5.2:判断该设备是否空闲,若满足,进入步骤2.5.3,否则,等待设备进入空闲时刻后再进入步骤2.5.3;步骤2.5.3:判断在当前待加工批次中是否有批次满足T+PTf+MTmPMme+0.1*PMm;若满足,进入步骤2.5.4,否则,进入步骤2.5.5;步骤2.5.4:所有满足条件的批次加入集合K内,进入步骤2.5.5;步骤2.5.5:判断集合K是否为空;若不为空,进入步骤2.5.6,否则进入步骤2.5.7;步骤2.5.6:将集合K中的批次由排序智能体选择一个批在该设备上加工,设备加工结束后进行维护,进入步骤2.5.1;步骤2.5.7:判断是否有其他设备正在维护,若没有,该设备直接进行维护,进入步骤2.5.1,否则进入步骤2.5.8;步骤2.5.8:判断维护该设备的维护结束时间是否满足T≤PMms+0.1*PMm,若满足,该设备直接进行维护,进入步骤2.5.1,否则进入步骤2.5.9;步骤2.5.9:按最短加工时间规则在待加工批次中选择一个批在该设备上加工,该设备加工结束后进行维护,进入步骤2.5.1;步骤3:模型训练:采集到的数据作为训练集对强化学习模型进行训练,并对参数进行设置优化,使模型能够选择最优的策略;步骤3中,模型采用近端策略优化方法进行优化,采用clip剪裁的梯度下降方法对参数进行更新,通过不断迭代实现炉管区状态到调度决策的策略函数优化;步骤3的过程如下:步骤3.1:初始化三个智能体的Actor网络和actor_old网络,一个全局Critic网络和一个全局LSTM网络;将LSTM网络与Actor和Critic进行全局更新实现LSTM网络与智能体同步优化;LSTM网络输出是Actor网络和Critic网络的输入,将Actor网络和Critic网络更新时的梯度回传至前缀LSTM实现全局参数优化;步骤3.2:初始化actor网络和critic网络的学习率,优化器,输入初始策略参数θ、初始价值函数φ,初始化超参数,包括clip的参数epsilon,输入状态s,使用actor网络选择动作,输出动作a和log概率值;步骤3.3:观测组批局部状态sBdc,根据组批策略Π0采取组批决策:aBdc~Π0mdc-1,sBdc,θ0,φ,观测设备局部状态sEdc,根据组批策略Π1采取组批决策:aEdc~Π1mdc-1,sEdc,θ1,φ;mdc-1是LSTM输出的交互向量,表示上一时刻的动态信息;使用GAE计算优势函数来减少策略梯度估计的方差,提高学习率,如式29所示,hatAt=suminftyl=0γ*λldeltat+l29其中,deltat=rt+γVst+1-Vst是时间差分误差,γ是折扣因子,λ是平滑因子;对不同步长的时间差分误差进行了加权平均,权重随着步长的增加而指数衰减;这里t是步长时间,hatAt表示在t内的估计累积总和,suminftyl=0表示从0到无穷远的时间范围内的总和,Vst表示在状态st下的状态值函数;步骤3.4:刷新组批后状态:sdc+1,奖励rBdc,刷新设备维护后状态:sdc+1,奖励rEdc,LSTM记忆,刷新交互向量mdc+1=LSTMsdc,aBdc,aEdc,φ,将组批经验[sdc+1,aBdc,rBdc,mdc]保存至组批经验缓存池,将设备经验[sdc+1,aEdc,rEdc,mdc]保存至设备经验缓存池;mdc表示当前的动态信息;用Adam随机梯度上升算法最大化PPO-Clip的目标函数来更新策略;所述Clip算法,神经网络参数更新方式如式30: 表示对时间步t的期望值;表示在t处的优势函数;rtθ表示在t处使用参数θ所得到的即时奖励;clip表示将输入的即时奖励进行裁剪,限制在1-ε到1+ε区间内;步骤3.5:观测组批局部状态sBdc和设备局部状态sEdc,根据排序策略Π2采取排序决策:aSdc~Π2mdc-1,sSdc,θ2,φ;步骤3.6:刷新调度后状态:sdc+1,奖励rSdc,LSTM记忆,刷新交互向量mdc+1=LSTMsdc,aSdc,φ,将排序经验[sdc+1,aSdc,rSdc,mdc]保存至排序经验缓存池;步骤3.7:计算组批,设备和排序的奖励值的全局折扣如式31: 式中Qsdc,adc为在状态sdc下选择调度决策adc所获得的全局累计折扣奖励值;dc表示当前时刻,dc′表示未来时刻,rt′表示时间步t′处获得的即时奖励;步骤3.8:直至所有任务完成,采用梯度下降法对参数进行更新,通过不断迭代实现炉管区状态到调度决策的策略函数优化;步骤4:实例测试:将训练好的模型应用到晶圆制造系统炉管区的仿真模型中进行实时调度,根据模型给出调度方案。

全文数据:

权利要求:

百度查询: 东华大学 一种基于强化学习的晶圆制造系统炉管区调度方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术