买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学
摘要:本申请涉及一种目标跟踪方法、装置、无人机和存储介质。该方法包括:获取无人机集群中各无人机当前时间步的飞行状态数据以及跟踪目标上一时间步的位置信息;将各无人机当前时间步的飞行状态数据和追踪目标上一时间步的位置信息输入至训练好的深度强化学习模型,得到各无人机当前时间步的飞行动作参数;根据飞行动作参数控制无人机集群中各无人机飞行,以对跟踪目标进行跟踪。采用本方法能够实时根据目标上一时间步的位置信息做出当前时间步最优的飞行决策,使得无人机的控制能灵活地适应环境的变化,有利于提高目标跟踪的成功率。
主权项:1.一种目标跟踪方法,其特征在于,所述方法包括:获取无人机集群中各无人机当前时间步的飞行状态数据以及跟踪目标上一时间步的位置信息;将所述各无人机当前时间步的飞行状态数据和所述跟踪目标上一时间步的位置信息输入至训练好的深度强化学习模型,得到各无人机当前时间步的飞行动作参数;根据所述飞行动作参数控制所述无人机集群中各无人机飞行,以对所述跟踪目标进行跟踪;其中,所述将所述各无人机当前时间步的飞行状态数据和所述跟踪目标上一时间步的位置信息输入至训练好的深度强化学习模型,得到各无人机当前时间步的飞行动作参数,包括:将所述各无人机当前时间步的飞行状态数据和所述跟踪目标上一时间步的位置信息输入至训练好的深度强化学习模型中的Q网络,得到各无人机当前时间步的各候选飞行动作参数对应的Q值;将所述各无人机当前时间步的各候选飞行动作参数对应的Q值输入至训练好的深度强化学习模型中的策略网络,确定各无人机当前时间步的飞行动作参数;其中,通过最小化如下公式对所述Q网络进行更新: 其中,θ表示Q网络的参数,st表示无人机当前时间步的飞行状态数据,at表示无人机当前时间步的飞行动作参数,D表示经验回放池,Qθst,at表示Q网络中的softQ函数,rst,at表示奖励函数,γ由Q网络隐式定义,是一个softQ网络带参数,表示无人机下一时间步的飞行状态数据在分布p中随机取样的数学期望,表示无人机当前时间步的飞行状态数据和当前时间步的飞行动作参数在经验回放池D中随机取样的数学期望,表示无人机下一时间步的飞行状态数据为st+1时的平均回报值,这里的平均指针对所有可能采取的行动的平均;其中,通过最小化如下公式对所述策略网络的参数进行更新: 其中,φ表示策略网络的参数,st表示无人机当前时间步的飞行状态数据,D表示经验回放池,at表示无人机当前时间步的飞行动作参数,πφ由Q网络隐式定义,α表示温度系数,πφat|st表示策略网络中的策略函数,Qθst,at表示Q网络中的softQ函数,表示无人机当前时间步的飞行状态数据在经验回放池D中随机取样的数学期望,表示无人机当前时间步的飞行动作参数依从分布πφ取样的数学期望。
全文数据:
权利要求:
百度查询: 清华大学 目标跟踪方法、装置、无人机和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。