基于风险态度自调整的多机避障策略学习方法及装置

导航：龙图腾网> 最新专利技术> 基于风险态度自调整的多机避障策略学习方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国人民解放军国防科技大学

摘要：本申请涉及一种基于风险态度自调整的多机避障策略学习方法及装置，该方法通过对乐观加权QMIX算法的分布式改造，在无人机的策略网络和混合网络中分别对策略和联合策略价值分布化；为降低无人机自身决策时风险并适应环境风险变化，在策略网络中引入条件风险值并构造效用值分布，在混合网络中通过隐式分位数网络将环境风险考虑在内，有效学能适应两种风险的合作避障策略；为适应环境风险动态变化，采用选项框架将策略值分布分散为多个窗口进行决策，实现无人机在当前状态下风险态度随环境风险变化的自适应调整能力。本方法能有效适应动态环境下不确定性因素带来的风险，提升合作避障中的策略质量，增强多机策略学习的稳健性和鲁棒性。

主权项：1.一种基于风险态度自调整的多机避障策略学习方法，其特征在于，所述方法包括：将多无人机合作避障任务建模成一个多智能体非集中式部分可观察的马尔科夫决策过程，每个无人机的信息包括：局部观测信息、动作以及系统状态；构建基于风险态度自调整的多机避障策略学习模型，所述多机避障策略学习模型是乐观加权QMIX模型为基础，在无人机策略生成过程中在动作价值分布基础上引入条件风险值来学习效用值分布，在策略层使用选项框架学习自适应的风险态度，在集中训练时采用隐式分位数网络将环境风险融入混合网络中；多机避障策略学习模型包括第一策略网络和第二策略网络、单调混合网络以及最优混合网络；采用每个无人机的当前局部观测信息和前一时刻的动作、以及全局状态作为输入，对网络参数初始化后的所述多机避障策略学习模型进行集中训练，得到每个无人机在风险环境下的最优策略；每个所述无人机采用对应的所述最优策略完成无人机合作避障任务；其中，采用每个无人机的当前的动作和局部观测信息、历史的动作和局部观测信息，对网络参数初始化后的所述多机避障策略学习模型进行集中训练，得到每个无人机在风险环境下的最优策略，包括：设置最大训练轮数和最大迭代次数，并设置当前训练轮数和当前迭代次数均为1；将每个无人机的当前局部观测信息和前一时刻的动作输入各自的第一策略网络中，得到每个无人机的当前动作值分布和当前选项价值；将所有无人机的当前动作值分布和当前全局状态输入到所述单调混合网络中，采用QMIX模型中的超网络结构，得到联合动作值分布；将每个无人机的当前局部观测信息和前一时刻的动作输入各自的第二策略网络中，得到每个无人机的当前策略值分布；将所有无人机的当前策略值分布和当前全局状态输入到所述最优混合网络中，采用前馈网络，得到联合策略值分布，并将环境风险通过隐式分位数网络融入到联合策略值分布，得到包含环境风险的最优联合策略值分布；根据所述最优联合策略值分布，计算效用值分布，基于效用值分布计算TD目标；根据所述联合动作值分布和所述最优联合策略值分布、所述TD目标、目标选项价值以及所述当前选项价值，采用预设总损失函数，计算模型总损失；通过最小化所述模型总损失更新所述第一策略网络、所述第二策略网络、所述单调混合网络以及所述最优混合网络的参数，以预设更新频率对第一目标策略网络、第二目标策略网络、目标单调混合网络以及目标最优混合网络的参数进行更新，将当前迭代次数增加1，进行下一次迭代优化，直到迭代次数达到最大迭代次数，当前训练轮数增加1，进入下一轮训练，直到训练轮数达到最大训练轮数，得到每个无人机的最优策略。

全文数据：

权利要求：

百度查询：中国人民解放军国防科技大学基于风险态度自调整的多机避障策略学习方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种船舶激振装置及船体振动试验分析方法

下一篇：一种外卖无接触配送方法、装置、设备及存储介质

相关技术

一种船舶激振装置及船体振动试验分析方法

一种外卖无接触配送方法、装置、设备及存储介质

回环检测方法、装置、电子设备和存储介质

一种便于安装的安防防盗报警装置

一种液压潜水泵

一种便于安装的电力计量装置

一种用于支持北斗定位和陆基导航定位的手持天线设备

一种浅层地下水污染用治理装置

一种高浓度含氟废水治理设备

通过光学衍射改善粒度

一种大数据支持的交通碳排放监测方法及监测系统

一种水力发电装置及清洁装置

避障相关技术

实时避障路径规划方法、系统、设备及介质_西安建筑科技大学_202210454092.5

基于WMSRL模型的机器人避障方法_北京航空航天大学_202410790268.3

虚拟相机模拟位移实现避障的控制方法、系统及存储介质_南京维赛客网络科技有限公司_202411095563.3

一种基于叉车图像数据采集的避障处理分析系统_深圳市天兴诚科技有限公司_202410736012.4

智能化分类钢铁仓库中AGV避障路径规划方法及系统_湘江实验室_202410825418.X

一种适用于多地形的智能避障式切割设备_武汉大学_202410917464.2

一种机器人动态场景下的自主导航避障方法_湖南大学_202411090518.9

一种无人安防车的避障雷达_陕西国防工业职业技术学院_202420142361.9

一种基于温度控制的机械臂避障路径规划方法_武汉大学_202410909948.2

一种事件流和事件帧融合的强化学习无人机避障方法_电子科技大学_202411105759.6

策略相关技术

智能配送策略规划方法及智能配送装置_浙江辉驿网络科技有限公司_202410411321.4

用于获取服务缓存策略的方法、电子设备、存储介质_重庆市巴蜀中学校_202410590393.X

用于电力系统的自适应网络防御策略优化方法及系统_国网新疆电力有限公司电力科学研究院_202410887705.3

频率校正控制策略配置方法、系统、存储介质及计算设备_南瑞集团有限公司_202210815624.3

基于CRM的门店营销策略智能管理系统和方法_中信出版集团股份有限公司_202410821815.X

网络安全场景策略切换方法、装置、存储介质及电子设备_北京华科软科技有限公司_202410730311.7

基于电压质量分级的储能VSG多级液流控制策略方法及系统_西安热工研究院有限公司_202411087962.5

用于存储器装置中的信号开发高速缓冲存储的页策略_美光科技公司_201980084464.6

一种储罐维护策略的自适应制定方法、设备及介质_山东京博控股集团有限公司_202411095714.5

能源管理策略确定方法、装置、计算机设备和存储介质_中国第一汽车股份有限公司_202410692718.5

机相关技术

熨烫机_集海科技(深圳)有限公司_202410875234.4

作业机_株式会社牧田_202410207382.9

制面机_东莞市至拙电器科技有限公司_202323668555.7

修枝机_南京泉峰科技有限公司_202323660965.7

洗涤机_重庆海尔洗衣机有限公司_202310216690.3

清洁机_曲阜信多达智能科技有限公司_202420004566.0

一种破碎机筛网组件、破碎机转子及破碎机_北京碎得环保科技有限公司_202420055961.1

料理机的主机、料理机以及烘干方法_浙江绍兴苏泊尔生活电器有限公司_202310234126.4

料理机刀组件和料理机搅拌杯_深圳市尚康智科技有限公司_202323496599.6

缝纫机过线结构及缝纫机_上海富山精密机械科技有限公司_202110659737.4

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于风险态度自调整的多机避障策略学习方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务