用于形成追捕策略的强化学习模型训练方法和训练装置

导航：龙图腾网> 最新专利技术> 用于形成追捕策略的强化学习模型训练方法和训练装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：鹏城实验室

摘要：本发明涉及追捕技术分析技术领域，具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。本发明逃跑者的控制量并不是确定性的，而是根据追捕者的信息给出的控制量，即逃跑者与追捕者进行了交互，这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略上的改变是一致的，追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略。如此往复地对追捕强化学习模型进行训练，这样等到的已训练追捕强化学习模型应用到实际追逃过程中，即便逃跑者针对追捕者改变了逃跑策略，追捕者依然能够精准地实现对逃跑者的追捕，从而增加了已训练的追捕强化学习模型的鲁棒性。

主权项：1.一种用于形成追捕策略的强化学习模型训练方法，其特征在于，包括：将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型；所述将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量，包括：依据所有所述追捕者的信息，得到所有所述追捕者的信息中的追捕位置；依据所述逃跑者的信息，得到所述逃跑者的信息中的逃跑位置和逃跑速度；将每个所述追捕者的追捕位置和逃跑者的逃跑位置和逃跑速度输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；所述将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量，包括：依据每个所述追捕者的观测信息，得到所述观测信息中的在简单环境下的观察信息和在复杂环境中的观察信息，所述简单环境为静态的所述逃跑者和障碍物的数量小于设定值，所述复杂环境为动态的所述逃跑者和障碍物的数量大于设定值；将每个所述追捕者在简单环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第一速度变化量；将每个所述追捕者在复杂环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第二速度变化量。

全文数据：

权利要求：

百度查询：鹏城实验室用于形成追捕策略的强化学习模型训练方法和训练装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种具有清洁组件的制袋机自动放卷设备

下一篇：烹饪设备

相关技术

一种具有清洁组件的制袋机自动放卷设备

烹饪设备

半导体存储器件

注射成型机的控制装置、注射成型机及注射成型机的控制方法

一种可调节径向大小的管道机器人及使用方法

一种用于碳素生产的布袋除尘装置

一种防弹隐身方舱

一种晶圆预清洗腔室穹顶清洗方法

一种小麦晚播施肥方法及其应用

一种环栅堆叠纳米器件及其制备方法

一种GIS设备机械振动状态预测方法、装置、设备及存储介质

双入口全品规条烟高速码垛装置及码垛方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

用于形成追捕策略的强化学习模型训练方法和训练装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务