首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于扩散模型和反馈学习的人机混合编队智能决策生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安工业大学

摘要:本发明涉及一种基于扩散模型和反馈学习的人机混合编队智能决策生成方法,通过建立训练场景和多智能体样本生成机制,采用扩散模型生成大量训练样本,从而获得有效观测样本;采用改进的反馈学习算法,实现策略的监督寻优,解决由于训练样本的随机波动导致的训练过程中可能出现的局部决策优化;基于扩散模型探索策略样本,对人机混合编队博弈策略实现智能生成,比现有方法所采用的强化学习策略训练生成具有更强的适应能力和泛化能力,同时本发明采用反馈学习,对初始扩散得到的策略进行监督优化和更新,克服了现有方法探索效率低,收敛慢,策略价值信息利用不足的缺点,提高了人机混合编队博弈胜率。

主权项:1.一种基于扩散模型和反馈学习的人机混合编队智能决策生成方法,其特征在于步骤如下:步骤1:以五元组S,A,P,R,γ描述马尔可夫决策过程,其中,S表示智能体状态空间,A表示智能体动作空间,P为状态转移矩阵,R是奖励函数,γ为折扣因子;步骤2:搭建人机混合编队训练环境,包括针对训练目标,在仿真环境中搭建相应场景的训练地图,并指定地图的大小、海拔参数;步骤3:构建人机混合编队中的不同单位的智能体运动学模型,不同单位包括战斗机、坦克、无人机、救援机器人;步骤4:通过经验反馈训练决策生成器,所述决策生成器采用卷积神经网络,训练数据为智能体动作数据集,并进行数据集标注;所述智能体动作数据集为:初始化空集合X,Y;X表示未标注策略集合或动作组合,Y表示已标注的策略集合;在智能体动作空间概率随机选取数量为N的策略πiai|si,并全部存入集合X;其中,策略πiai|si是指在状态si下选择执行动作ai的一种策略函数,与独立的动作ai有所区别;步骤4-1:数据集标注:从集合X中任选两个策略πi,πj,如果这两个策略πi,πj,在集合Y未检索到,则计算πi,πj的总体偏好preferπi,πj,按照总体偏好preferπi,πj,对这两个策略πi,πj进行标注πi,πj,preferπi,πj存入集合Y中:当Y中样本数量达到需求或最大样本数量则结束标注;步骤4-2:训练决策生成器模型:对集合Y中标注的任一组策略及偏好πi,πj,preferπi,πj对πi,πj计算偏好值: 其中,是以θR为参数的神经网络,其功能是对于输入的策略πi,πj,预测出偏好值高的策略;计算决策生成器损失函数LHF;所述损失为交叉熵损失CELoss损失函数值;使用梯度下降算法,根据LHF更新生成器的神经网络的参数当损失函数LHF值达到终止条件时,结束训练,否则继续训练;步骤5:人机混合编队智能决策训练,生成的人机混合编队作战决策模型,生成备选序列进行操控:步骤5-1:智能决策训练划分为预热阶段和训练阶段:首先,设定预热回合数,若运行回合数不大于预热回合数,进入预热阶段,此时人机混合编队中所有单位均作为机控单位;若运行回合数大于预热回合数,进入训练阶段,此时智能算法经训练后生成控制指令,再由通讯模块解码为备选序列,对人控单位进行操控;步骤5-2:初始化每个智能体的Q网络参数θi;初始化注意力网络参数全局混合网络参数θ;步骤5-3:初始化经验回放缓冲区D;所述经验回放缓冲区中存放的样本为5元组s,s′,a,r,t;其中,对于全体智能体,s表示当前状态,s′表示下一状态,a表示联合动作集合,r表示奖励值,t为终止判断标志;步骤5-4:预热阶段的智能体策略优化和更新,获取初始环境状态s,并将智能体随机分组,在预热阶段的每一步中:步骤5-4-1:利用扩散模型,生成最优策略:规定:对于每个动作上标p表示其扩散时间步,下标q表示全局时间步,T为扩散模型的最大扩散时间步;对于每个智能体,获取智能体局部观测状态st;根据智能体当前动作at生成下一时刻动作at+1:指定扩散模型方差列表[β1,β2,β3,...,βT],定义参数αm,在均匀分布U1,T上采样时间步n;在均匀分布Un,T上采样扩散过程时间步k;令根据加噪函数得到扩散过程输出值对于扩散时间步m={k,k-1,k-2,...,k-n+1},根据去噪函数逐步计算得到扩散模型输出动作计算使智能体Q函数最大化的动作获取下一时刻的动作at+1:通过决策生成器根据当前状态st在动作与中选取偏好动作,并将其赋值给at+1;若偏好决策失效,则令执行动作at,令at=at+1;步骤5-4-2:更新经验缓冲池:将s,s′,a,r,t存入经验缓冲池;令s=s′;若经验缓冲池中数据量达到最小采样数量mini-batch,则从中采样mini-batch份样本;步骤5-4-3:更新价值函数Viτi,优势值函数Aiτi,ai,Q函数Qiτi,ai:规定:对于每个动作其下标i表示智能体编号,上标g表示智能体所在分组;更新过程:首先,对于每个智能体i,将Q函数Qiτi,ai分解为价值函数Viτi和优势值函数Aiτi,ai,公式如下: Aiτi,ai=Qiτi,ai-Viτi其中,τi表示智能体i的动作轨迹,ai表示第i个智能体当前动作;智能体i的动作轨迹是指从训练开始到当前时刻,智能体的一系列局部观测值和状态构成的序列;更新价值函数,优势值函数,Q函数,计算公式如下:Qiτi,ai=wiτQiτi,ai+biτViτi=wiτViτi+biτAiτi,ai=wiAiτi,ai其中,wiτ,biτ均通过智能体神经网络θi学习生成;步骤5-4-4:计算智能体分组Q函数:计算每个智能体分组g的Q函数值,公式如下: 其中,n_g为第g个小组的智能体数量;为第g个小组第i个智能体的当前动作,与ai的区别仅在于前者表示第g个智能体分组中某个智能体的当前动作,而后者表示全体智能体中某个智能体的当前动作;τg表示第g个小组的联合动作轨迹,具体表示为:与τi的区别仅在于前者表示第g个智能体分组中某个智能体的动作轨迹,而后者表示全体智能体中某个智能体的动作轨迹;ag表示第g个小组的联合动作,具体表示为:步骤5-4-5:计算全局Q函数Qtotτ,a,公式如下: 其中,τ表示全体智能体的联合动作轨迹,设智能体总数为agent_n,则联合动作轨迹可具体表示为:τ=τ1,τ2,...,τagent_n;a表示全体智能体的联合动作,具体表示为:a=a1,a2,...,aagent_n;GNum为智能体分组数;xi为各组权重,通过全局混合网络获取;步骤5-4-6:计算损失函数:首先,计算全局策略损失函数,公式如下: 其中:λi,λN,λE均为参数;N表示智能体总数;Li表示智能体损失函数,计算公式如下: 其中:bs为batch-size,即经验缓冲池大小;γ为折扣因子,其值通过实验调整;τi,k、ai,k、ri,k分别表示经验缓冲池的第k个样本中属于智能体i的动作轨迹、动作、奖励值;τi′,k表示智能体i执行动作ai,k后的动作轨迹;ai′,k表示在动作轨迹τi′,k下使得智能体i的Q函数值最大的动作;θi表示智能体i的当前网络参数,表示智能体i的目标网络参数;LTD表示时序差分误差损失函数,计算公式如下: 其中:τk、ak、rk分别表示经验缓冲池的第k个样本中的联合动作轨迹、联合动作、奖励值总和;τ′k表示全体智能体执行联合动作ak后的联合动作轨迹;a′k表示在联合动作轨迹τ′k下使得全局Q函数值最大的联合动作;θ表示当前全局混合网络参数,θ-表示目标全局混合网络参数;Lintra-G表示智能体组内注意力损失函数,由两部分构成,即值损失Lvalue和优势损失Ladvantage,对于某个智能体分组g,计算公式如下: 其中:λ为参数,Linter-G表示智能体组间注意力损失,两部分构成,前半部分为互信息损失,后半部分为KL散度,计算公式如下: 其中:表示在t时刻,智能体i在状态s下采取动作ai的策略;β为常数,在0至1之间;若所有智能体都为一组,则组内Q函数值即为全局Q函数值,既不使用混合网络进行计算,也不需计算组间损失,即忽略该损失;计算扩散模型损失函数,公式如下: 步骤5-4-7:使用梯度下降算法更新网络参数:根据LTDθ更新混合网络参数θ;根据更新注意力网络参数根据Liθi更新智能体网络参数θi;根据LdiffusionθD更新扩散模型网络参数θD;步骤5-5:训练阶段的智能体策略优化和更新,获取初始环境状态s,并将各智能体随机分组;在训练阶段的每一步中:步骤5-5-1:若编队中所有智能体采用智能算法控制,执行步骤5-4-1至步骤5-4-7;步骤5-5-2:若编队中包含有操作员控制的智能体,执行下述步骤:首先,对于所有智能算法程序控制的智能体i,执行步骤5-4-1;对所有操作员控制的智能体j:获取其局部观测状态st,并将生成的备选操作策略通过通讯模块发送给操作员;操作员对其控制的人控单位执行备选策略操作;通讯模块将操作员对人控单位的操作序列编码为操作指令,并发送给智能算法;对所有智能体,执行步骤5-4-2至步骤5-4-7;步骤5-6:若达到结束条件,终止训练,关闭仿真环境,保存最终决策生成的人机混合编队作战决策模型。

全文数据:

权利要求:

百度查询: 西安工业大学 一种基于扩散模型和反馈学习的人机混合编队智能决策生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。