首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于形成追捕策略的强化学习模型训练方法和训练装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:鹏城实验室

摘要:本发明涉及追捕技术分析技术领域,具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。本发明逃跑者的控制量并不是确定性的,而是根据追捕者的信息给出的控制量,即逃跑者与追捕者进行了交互,这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略上的改变是一致的,追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略。如此往复地对追捕强化学习模型进行训练,这样等到的已训练追捕强化学习模型应用到实际追逃过程中,即便逃跑者针对追捕者改变了逃跑策略,追捕者依然能够精准地实现对逃跑者的追捕,从而增加了已训练的追捕强化学习模型的鲁棒性。

主权项:1.一种用于形成追捕策略的强化学习模型训练方法,其特征在于,包括:将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量;依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置,得到每个所述追捕者的观测信息;将每个所述追捕者的观测信息输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量;根据所述追捕控制量,训练所述追捕强化学习模型,得到已训练的所述追捕强化学习模型;所述将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量,包括:依据所有所述追捕者的信息,得到所有所述追捕者的信息中的追捕位置;依据所述逃跑者的信息,得到所述逃跑者的信息中的逃跑位置和逃跑速度;将每个所述追捕者的追捕位置和逃跑者的逃跑位置和逃跑速度输入到已训练的逃跑强化学习模型中,得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量;所述将每个所述追捕者的观测信息输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量,包括:依据每个所述追捕者的观测信息,得到所述观测信息中的在简单环境下的观察信息和在复杂环境中的观察信息,所述简单环境为静态的所述逃跑者和障碍物的数量小于设定值,所述复杂环境为动态的所述逃跑者和障碍物的数量大于设定值;将每个所述追捕者在简单环境下的观察信息,输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第一速度变化量;将每个所述追捕者在复杂环境下的观察信息,输入到追捕强化学习模型中,得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第二速度变化量。

全文数据:

权利要求:

百度查询: 鹏城实验室 用于形成追捕策略的强化学习模型训练方法和训练装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。