买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国石油大学(华东)
摘要:本发明公开了一种继承历史经验的生产优化机器学习离线模型构建方法,属于石油技术领域。本发明利用强化学习近端策略优化算法以及遗传算法,可以将计算分配到多个CPU中完成并行计算,各进程间进行数据池共享,提高采样效率,通过提供多样化的探索经验来训练强化学习智能体,提高稳定性和鲁棒性;同时训练后的策略网络可在再次优化时直接给出最优的生产制度,无需重复进行高昂的优化过程。
主权项:1.一种继承历史经验的生产优化机器学习离线模型构建方法,其特征在于:包括以下步骤:步骤1:建立待优化区域油藏数值模型,获取模型中需调控注入井及其注入量约束、生产井及其产量约束、以及油藏的含水率或地层压力约束;步骤2:初始化种群G以及经验存放数据池Ω;种群G包括Ne个策略网络;步骤3:采用近端策略优化算法,搭建深度强化学习框架,初始化Nr个智能体;步骤4:初始化训练参数及油藏状态信息,包括油藏地层压力及剩余油饱和度信息;步骤5:根据种群G中不同策略网络生成的当前状态St下的动作空间at,与环境模型数值模拟器进行交互,得到奖励rt和下一状态St+1,计算整个生产周期的总收益作为种群G内个体适应度值,强化学习策略以相同方法计算整个生产周期内的总收益;步骤6:采用遗传算法进行种群中的参数更新;步骤7:进行近端策略优化算法的策略更新;当共享经验池中样本数量足够多时,在经验池内选取一定数量样本{St,A,rt,St+1}进行策略网络和动作价值网络的更新;步骤8:定期将通过近端策略优化算法训练的策略网络,复制到遗传算法种群G中,以替换最弱的个体;步骤9:重复步骤4~步骤8,直至满足迭代收敛条件;步骤10:根据保存的最优策略网络,输入油藏的状态信息,即能够输出完整的生产制度;步骤1中获取模型约束变量的具体步骤为:步骤1.1:注入井为线性约束,注入井采用流量控制:单井日注入量∈[x,y];其中,x为下边界;y为上边界设为最大注水速率;步骤1.2:生产井为线性约束,采用井底压力控制:井底压力∈[m,n];其中,m下边界为油藏泡点压力,n上边界设为油藏平均压力;步骤1.3:同时考虑包括油藏的含水率或地层压力在内的非线性约束;在步骤3中,具体包括如下步骤:步骤3.1:强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏;采用近端策略优化算法,将注采优化问题建模为马尔可夫决策,并定义如下关键要素:策略、状态、动作以及奖励函数;步骤3.2:使用θ参数化的神经网络πθat|st表示策略网络,该网络的输入为状态st,输出为动作at;使用ω参数化的神经网络Vωst表示动作价值网络,动作价值网络的输入为状态st,输出为价值;在步骤5中,具体包括如下步骤:步骤5.1:对油藏数值模拟的RSM输出文件进行读取,以矩阵形式作为网格的输入;st={so,1,···,so,i,···,so,n;p1,···,pi,···,pn}1;式中,st表示第t时刻状态,pi表示油藏模型每个网格点的压力值,so,i表示含油饱和度值;步骤5.2:动作at设置为第t时间步内各井的井控方案,如公式2所示: 式中,Wprd,i表示第i口生产井的产液量,Winj,i表示第i口注水井的注水速率;步骤5.3:奖励rt采用当前时间步的经济净现值NPV表示,如公式3所示: 式中,qo,j,qw,j和qwi,i分别是第j口生产井日产油、第j口生产井日产水和第i口注水井的日注入量,单位为m3d,ro为原油价格,rw和ri分别是水处理成本和注水成本,单位为元m3;步骤5.4:循环进行以下步骤5.4.1-5.4.2,直至完成整个生产周期的数值模拟过程,步骤5.4.1:读取当前状态下的油藏地层压力和饱和度信息,将油藏状态信息输入策略网络,输出将当前t时刻井的控制变量at,并写入生产制度文件;步骤5.4.2:按照策略网络得到的生产制度,调用油藏数值模拟器模拟该制度下的生产过程,获得该制度下的包括产油量、产液量在内的生产动态以及下一时刻的油藏压力和油藏状态信息st+1;步骤6中,具体包括如下步骤:步骤6.1:种群内每个个体策略网络在整个生产周期内通过与油藏数值模拟器的交互的进行评估,其适应度值采用累计净现值,即整个生产周期的净现值,计算如下: 式中,NPV为净现值,n为控制时间步数;Qo,t,Qw,t和Qi,t分别是时间步t的产油速度、产水速度和注水速度,m3d;ro是原油价格,rw和ri分别是水处理成本价格和注水成本价格,元m3;b是平均年利率;pt是年利率;步骤6.2:将部分个体保留为精英;步骤6.3:通过选择、交叉和变异操作对策略网络的权重进行概率扰动,以产生新个体作为子代;步骤6.4:定期将强化学习使用梯度信息更新的策略网络与遗传算法种群个体进行替换,遗传算法作为外循环进行优化,内循环中使用梯度信息进行训练;步骤7中,具体包括如下步骤:步骤7.1:根据油藏当前时刻的状态信息st、决策变量at、奖励值rt+1以及下一时刻油藏状态信息st+1,评估当前策略网络执行策略的好坏δt并更新动作价值网络的参数ω: 其中,δt被称为TD误差,衡量当前时刻st的估计值与更好的估计rt+1+γVωst+1,at+1之间的差异;表示对ω求梯度;步骤7.2:根据当前时刻油藏状态st,决策变量at以及动作价值网络返回的δt更新策略网络的参数θ: 其中,表示对θ求梯度;步骤7.3:优化过程中,最初为每个智能体分配相同数量的CPU内核以与油藏环境进行交互,CPU内核的分配不仅考虑智能体的当前估计值,还考虑它们被选择的次数,保证探索和利用之间的平衡,并避免耗时的超参数优化。
全文数据:
权利要求:
百度查询: 中国石油大学(华东) 一种继承历史经验的生产优化机器学习离线模型构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。