首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:辽宁石油化工大学

摘要:本发明公开了一种基于高斯过程预测的非零和多玩家博弈的Q‑学习方法,属于机器学习和自动控制技术领域,具体涉及一种结合高斯过程预测和脱策略交错Q‑学习方法,具体步骤如下:步骤一,建立一个包含随机扰动的多玩家非零和博弈问题模型;步骤二,求解非零和博弈纳什均衡解的强化学习方法;步骤三,高斯过程预测模型建模方法;步骤四,脱策略交错Q‑学习方法。本发明的优点效果是提供一种能够在存在随机干扰的环境中稳定且有效地求解多玩家非零和博弈问题的强化学习算法,提高系统的整体性能和稳定性,本方法能够适应环境的动态变化,有效处理因随机干扰引起的不确定性,为多玩家博弈问题的解决提供了一种新的技术途径。

主权项:1.一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法,其特征在于,具体步骤如下:步骤一:建立一个包含随机扰动的多玩家非零和博弈问题模型;考虑如下具有高斯噪声的多玩家系统: 其中是系统状态,是控制输入,εk是噪声并且服从高斯分布k为采样时刻;每个玩家uik都可以访问系统1的完整状态;每个玩家的目标是通过自己的努力将自己的性能指标降到最低,而不考虑其它玩家的表现;每个玩家ii=1,2,...,n的性能指标Ji定义为下面给出的效用函数的累积总和: 其中Qi和Rq分别是半正定矩阵和正定矩阵;x0表示系统1的初始状态;将2在1的约束下最小化是一个标准的多玩家非零和博弈问题,所有玩家最终都将达到纳什均衡;根据性能指标2,假设存在一组可容许的控制策略u1xk,u2xk,...,unxk,可以分别为每位玩家ii=1,2,...,n;定义如下最优值函数和最优Q函数; 定义假设其他玩家的策略u-i不变,则第i个玩家的最优性能函数可以表示如下: 以及 根据以下公式 得到 其中假设控制策略uik=-Kixk是可容许的,得到 从系统1可以得到和由此能进一步得到 由于每个时刻的噪声遵循同一高斯分布,εk+j-1可由ε表示;设则35可重写为 其中令则式33能够被进一步推导 其中 步骤二:求解非零和博弈纳什均衡解的强化学习方法;定义一组控制策略被视为多玩家博弈的纳什均衡的解,对于不等式如下: 通过求解非零和对策来找到纳什均衡;基于Q函数的贝尔曼方程可以通过与6和7相结合的动态规划来推导; 由此可得 根据最优性的必要条件,每个参与者的最优控制策略应满足因此通过11能得到 其中 用13代替12中的可以得到基于最优Q函数的Riccati方程; 其中步骤三:高斯过程预测模型建模方法;高斯过程预测算法包括以下步骤:步骤1:数据采集:系统数据由行为策略uk生成,取xk作为输入数据,xk+1作为输出数据,分别存储为X和Y;步骤2:训练超参数和高斯模型:给定初始超参数α,λ1,...,λN,求解最优超参数,得到高斯模型18;步骤3:高斯模型生成数据:给定任意初始状态xk,由高斯预测输出的均值μk+1和方差σk+1,并存储在新的数据集中,然后由μk+1和σk+1选择新的预测值xk+1作为下一个输入向量,直到第p个时刻循环结束;步骤四:脱策略交错Q-学习方法;对Q函数矩阵使用梯度下降更新; 对上述参数矩阵求导得 定义以下损失函数 参数矩阵Hi更新如下 其中 其中其次,第i个玩家的迭代策略参数可以从14中导出 脱策略交错Q-学习算法包括以下步骤:步骤1:初始化:初始化参数矩阵上一时刻迭代参数矩阵迭代策略参数初始状态x0,k=0,j=1,N=3;步骤2:数据收集:给定xk,设置所需数量的训练集p,通过算法1获得后续的k+p个状态,并将其存储在训练集中;步骤3:首先,从训练集中依次提取数据,然后使用23计算损失函数,使用24和25更新参数矩阵H一次;步骤4:用26计算策略参数矩阵Ki;步骤5:如果i<N,使i=i+1,然后返回第3步,否则跳到第6步;步骤6:检查与如果满足上述条件获取否则令j=j+1并返回第3步。

全文数据:

权利要求:

百度查询: 辽宁石油化工大学 一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。