一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法

导航：龙图腾网> 最新专利技术> 一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：辽宁石油化工大学

摘要：本发明公开了一种基于高斯过程预测的非零和多玩家博弈的Q‑学习方法，属于机器学习和自动控制技术领域，具体涉及一种结合高斯过程预测和脱策略交错Q‑学习方法，具体步骤如下：步骤一，建立一个包含随机扰动的多玩家非零和博弈问题模型；步骤二，求解非零和博弈纳什均衡解的强化学习方法；步骤三，高斯过程预测模型建模方法；步骤四，脱策略交错Q‑学习方法。本发明的优点效果是提供一种能够在存在随机干扰的环境中稳定且有效地求解多玩家非零和博弈问题的强化学习算法，提高系统的整体性能和稳定性，本方法能够适应环境的动态变化，有效处理因随机干扰引起的不确定性，为多玩家博弈问题的解决提供了一种新的技术途径。

主权项：1.一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法，其特征在于，具体步骤如下：步骤一：建立一个包含随机扰动的多玩家非零和博弈问题模型；考虑如下具有高斯噪声的多玩家系统：其中是系统状态，是控制输入，εk是噪声并且服从高斯分布k为采样时刻；每个玩家uik都可以访问系统1的完整状态；每个玩家的目标是通过自己的努力将自己的性能指标降到最低，而不考虑其它玩家的表现；每个玩家ii＝1,2,...,n的性能指标Ji定义为下面给出的效用函数的累积总和：其中Qi和Rq分别是半正定矩阵和正定矩阵；x0表示系统1的初始状态；将2在1的约束下最小化是一个标准的多玩家非零和博弈问题，所有玩家最终都将达到纳什均衡；根据性能指标2，假设存在一组可容许的控制策略u1xk,u2xk,...,unxk，可以分别为每位玩家ii＝1,2,...,n；定义如下最优值函数和最优Q函数；定义假设其他玩家的策略u-i不变，则第i个玩家的最优性能函数可以表示如下：以及根据以下公式得到其中假设控制策略uik＝-Kixk是可容许的，得到从系统1可以得到和由此能进一步得到由于每个时刻的噪声遵循同一高斯分布，εk+j-1可由ε表示；设则35可重写为其中令则式33能够被进一步推导其中步骤二：求解非零和博弈纳什均衡解的强化学习方法；定义一组控制策略被视为多玩家博弈的纳什均衡的解，对于不等式如下：通过求解非零和对策来找到纳什均衡；基于Q函数的贝尔曼方程可以通过与6和7相结合的动态规划来推导；由此可得根据最优性的必要条件，每个参与者的最优控制策略应满足因此通过11能得到其中用13代替12中的可以得到基于最优Q函数的Riccati方程；其中步骤三：高斯过程预测模型建模方法；高斯过程预测算法包括以下步骤：步骤1：数据采集：系统数据由行为策略uk生成，取xk作为输入数据，xk+1作为输出数据，分别存储为X和Y；步骤2：训练超参数和高斯模型：给定初始超参数α,λ1,...,λN，求解最优超参数，得到高斯模型18；步骤3：高斯模型生成数据：给定任意初始状态xk，由高斯预测输出的均值μk+1和方差σk+1，并存储在新的数据集中，然后由μk+1和σk+1选择新的预测值xk+1作为下一个输入向量，直到第p个时刻循环结束；步骤四：脱策略交错Q-学习方法；对Q函数矩阵使用梯度下降更新；对上述参数矩阵求导得定义以下损失函数参数矩阵Hi更新如下其中其中其次，第i个玩家的迭代策略参数可以从14中导出脱策略交错Q-学习算法包括以下步骤：步骤1：初始化：初始化参数矩阵上一时刻迭代参数矩阵迭代策略参数初始状态x0，k＝0，j＝1，N＝3；步骤2：数据收集：给定xk，设置所需数量的训练集p，通过算法1获得后续的k+p个状态，并将其存储在训练集中；步骤3：首先，从训练集中依次提取数据，然后使用23计算损失函数，使用24和25更新参数矩阵H一次；步骤4：用26计算策略参数矩阵Ki；步骤5：如果i＜N，使i＝i+1，然后返回第3步，否则跳到第6步；步骤6：检查与如果满足上述条件获取否则令j＝j+1并返回第3步。

全文数据：

权利要求：

百度查询：辽宁石油化工大学一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：电子设备及摄像控制方法

下一篇：一种红外线对射感应开关及其制造方法

相关技术

电子设备及摄像控制方法

一种红外线对射感应开关及其制造方法

一种结合日志进行客户端仿真方法

一种基于边缘计算的污染排放多源监测分析系统及方法

一种大规格钛合金板材的表面改性方法

一种基于协同强化学习的多无人机轨迹规划和数据收集方法

置信度计算方法、装置、电子设备及计算机可读存储介质

压电负载的驱动控制方法、装置、空调器及介质

一种折叠屏保护膜快速自动热压控制方法、系统及设备

陶瓷件加工用高精度切割装置及方法

用于形成半导体器件的方法和半导体器件

一种含有温湿度检测装置的氮气柜及其使用方法

多玩相关技术

一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法_辽宁石油化工大学_202410737136.4

大型多玩家本地CO-OP和竞技游戏_索尼互动娱乐股份有限公司_202380020917.5

一种多玩法的星棋_王进美_202311195770.1

协调多玩家游戏会话的方法、系统和介质_谷歌有限责任公司_202410258922.6

一种消除类游戏的多玩家交互操作方法_上海硬通网络科技有限公司_202410107633.6

建立和管理多玩家会话_索尼互动娱乐有限责任公司_201980064082.7

协调多玩家游戏会话的方法、系统和介质_谷歌有限责任公司_201880090756.6

用于多玩家游戏中的实况玩游戏的用户驱动的观众频道_索尼互动娱乐有限责任公司_201880028575.0

一种多玩家协同在线场景编辑系统、方法及装置_珠海金山数字网络科技有限公司_201811612506.2

协调多玩家游戏_360度音乐公司_202180081781.X

非零相关技术

非接触输入装置和非接触输入方法_三菱电机株式会社_202280093738.X

非接触式曝光机_苏州太阳井新能源有限公司_202420026752.4

一种包装用的零对零洗铝封签_南京金箔包装材料集团股份有限公司_202410901000.2

电机旋变调零控制方法、装置、旋变调零系统及存储介质_一汽解放汽车有限公司_202410907322.8

一种精密零件加工用零件清污装置_南通福瑞机械有限公司_202323669409.6

一种非制冷红外焦平面阵列非均匀性校正方法_长春理工大学_202211564203.4

一种非接触非侵入无损伤的糖分监测预警干预方法_北京市疾病预防控制中心_202411105502.0

一种基于非均匀零插滤波的快速高精度扫频干涉测量非线性校正系统及方法_哈尔滨工业大学_202311427983.2

KLT零件管理方法_一汽物流(天津)有限公司_202410862757.5

管状零件的加工设备_江苏科森医疗器械有限公司_202310619111.X

博弈相关技术

计及信誉值修正的虚拟电厂合作博弈利益分配方法_华北电力大学(保定)_202410898559.4

一种基于静态博弈的抗网络拓扑探测的部署策略方法_广州大学_202410930933.4

一种基于聚合商双层博弈FDI攻击的防御方法及系统_东北大学_202411109330.4

基于双层优化和博弈分析的海上对抗防御策略优化方法_西安电子科技大学_202410803382.5

两团队零和博弈的多智能体强化学习方法_中国科学院自动化研究所_202411093631.2

一种基于帕累托最优博弈交叉效率的综合效率评价方法_国网安徽省电力有限公司电力科学研究院_202410915524.7

一种基于斯塔克伯格博弈的储能优化配置方法_沃太能源股份有限公司_202410878287.1

一种滚动预测的非合作轨道追逃博弈机动控制方法_西北工业大学_202410864311.6

一种超声速飞行器博弈突防制导方法_西北工业大学_202410860827.3

一种基于主从博弈的共享储能集群电力零售组合配置方法_华北电力大学_202410874902.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务