恭喜南京理工大学叶茂娇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜南京理工大学申请的专利基于通道注意力机制深度强化学习算法的多无人艇协同围捕方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119168601B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411666628.5,技术领域涉及:G06Q10/101;该发明授权基于通道注意力机制深度强化学习算法的多无人艇协同围捕方法是由叶茂娇;王琨;丁磊;黄琦龙设计研发完成,并于2024-11-21向国家知识产权局提交的专利申请。
本基于通道注意力机制深度强化学习算法的多无人艇协同围捕方法在说明书摘要公布了:本发明公开了一种基于通道注意力机制深度强化学习算法的多无人艇协同围捕方法,包括以下步骤:建立海上无人艇围捕博弈环境,确定围捕艇的动力学模型以及观测空间,逃逸艇的逃逸策略定义围捕成功的条件;基于通道注意力网络将无人艇对友方的观测空间维数固定;构建多智能体深度确定性策略梯度算法框架,结合围捕问题设计距离协作和角度协作的奖励函数;采用集中训练,分布执行的训练框架生成多无人艇协同围捕策略。本发明得到的协同围捕策略考虑了不同围捕艇的数量影响,能够适应未来不确定数量的围捕环境变化,同时合理的单体协同奖励函数设计能够提高围捕任务的成功率。
本发明授权基于通道注意力机制深度强化学习算法的多无人艇协同围捕方法在权利要求书中公布了:1.一种基于通道注意力机制深度强化学习算法的多无人艇协同围捕方法,其特征在于,包括如下步骤:步骤1,建立多无人艇协同围捕海域环境;并将海域环境中的岛礁信息以及各无人艇位置角度信息参数化,给出逃逸船的策略函数;步骤2,将无人艇的交互信息建模成马尔可夫决策模型,设计多无人艇协同围捕任务动作空间,观测空间和奖励函数;具体包括:步骤2-1,对于多无人艇协同围捕任务描述为马尔可夫博弈,用元组表示,为全局状态,围捕艇的联合观测空间为,为围捕艇的联合动作空间,表示在状态下采取策略动作后转移到下一个状态的转移概率,为各围捕艇的奖励函数,为累计折扣奖励的衰减系数;步骤2-2,建立围捕艇二阶运动学方程,并定义连续动作空间: (3) (4)其中,公式(3)中和分别表示无人艇的线速度和角速度,和分别表示无人艇的线速度和角速度相对于时间的导数,和分别表示无人艇的线加速度和角加速度,表示无人艇在海域上的位置坐标,和分别表示无人艇在横纵坐标方向下的瞬时速度,为无人艇的航向角,为无人艇的瞬时航向角;公式(4)中,表示无人艇在时刻下在海域上的位置坐标,为无人艇的二维连续动作空间,其中为无人艇在轴方向上输出的瞬时速度,为无人艇在轴方向上输出的瞬时速度,时间间隔,表示无人艇在时刻下经过时间间隔后在海域上的位置坐标;策略网络输出动作后无人艇根据公式(4)进行位置更新;步骤2-3,对于第艘无人艇,定义观测空间如下: (5) (6)其中,公式(5)表示无人艇的观测空间包含对逃逸艇的观测,对参与同一协同围捕任务的友方无人艇的观测以及自身的状态观测;公式(6)表示这三部分观测的组成成分,其中和表示为逃逸艇相对于无人艇的舷角及其变化率;距离逃逸艇的距离及其变化率;敌方的速度及其变化率;和表示为无人艇相距于友方无人艇的距离和变化率,表示相互间的舷角及其变化率,表示无人艇和无人艇的夹角;无人艇左右相邻友方无人艇的夹角差值为,表示为围捕艇群体距离逃逸艇的距离均值;步骤2-4,对于无人艇集群协同围捕任务设计奖励函数如下: (7) (8) (9) (10) (11)其中,公式(7)表示无人艇的奖励函数由单体奖励和集群奖励构成;公式(8)表示单体奖励由4部分组成,分别是距离奖励,避碰奖励,角度奖励以及进入围捕圈内的额外奖励;公式(9)表示集群奖励由两部分组成,分别是距离协作奖励和角度协作奖励;公式(10)中为参与围捕任务的我方所有围捕艇个数,表示无人艇相距于友方无人艇的最短距离,表示我方任意一艘围捕艇进入到敌方围捕区域内所获奖励,表示我方全部围捕艇均进入敌方围捕区域所获奖励;公式(11)中和分别表示距离协作奖励和角度协作奖励,无人艇左右相邻友方无人艇的夹角差值为,表示为围捕艇群体距离逃逸艇的距离均值;步骤3,构建通道注意力网络,对友方无人艇状态观测信息进行处理后与逃逸艇和自身状态观测信息进行拼接输入到算法模块中;具体包括:步骤3-1,读取每艘无人艇对友方无人艇的观测信息;步骤3-2,对观测信息不同类型属性进行特征重构,使角度,距离观测值在同一定量尺度上,得到N组维向量;步骤3-3,将N组维特征向量经过3个不同深度的全连接层,得到同一组观测状态的3个不同尺度表达;步骤3-4,将3个不同尺度的状态表达作为通道注意力模块的输入,经过压缩激励层,得到7个通道之间的权重关系,最后与输入信息进行加权平均输出;步骤4,构建基于Actor-Critic的目标网络,将无人艇的动作,状态和奖励作为批经验存储经验池中,在训练过程中,中心化的评价函数Critic使用经验池中的联合经验来更新网络参数,而Actor函数会依据Critic给出的Q值更新策略;步骤5,在执行阶段用更新后的Actor决策函数进行去中心化决策,执行阶段仅使用自身的局部观测得到策略。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京理工大学,其通讯地址为:210094 江苏省南京市孝陵卫200号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。