首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于安全互模拟度量的视觉强化学习方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国矿业大学

摘要:本发明公开了一种基于安全互模拟度量的视觉强化学习方法,首先,建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型,并初始化模型参数;对于每个环境步,收集经验样本,构建拉格朗日损失函数,并更新拉格朗日乘子;对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,构建安全强化学习模型并更新模型参数;最后,重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征,同时满足预设的安全约束要求。

主权项:1.一种基于安全互模拟度量的视觉强化学习方法,其特征在于,具体包括如下步骤:步骤1,构建序列条件变分推断模型、安全互模拟度量模型和安全强化学习模型,并初始化模型参数;所述序列条件变分推断模型用于将高维视觉观测压缩为低维潜在状态表征,所述安全互模拟度量模型用于量化状态之间的行为相似性,使得任意两个所述低维潜在状态表征之间的距离尽可能接近其对应状态之间的安全互模拟度量;构建序列条件变分推断模型,具体包括:给定状态空间动作空间奖励r和成本c,序列条件变分推断模型旨在通过学习一个联合条件生成分布pθo,r,c,z;a,构建一个平滑的潜在状态空间其参数为θ;假设为联合条件推断分布,其参数为作为联合条件生成分布pθo,r,c,z;a的合理近似;当给定潜在状态表征z和动作a后,o、r、c之间是条件独立的;换句话说,pθo,r,c|z;a=pθo|z;apθr|z;apθc|z;a;最小化KL散度以便使更接近pθo,r,c,z;a,即,在安全互模拟度量模型中,安全互模拟度量的定义如下:给定一个连续的策略π∈Π,其中Π表示策略空间,任意两个状态之间的安全互模拟度量定义为: 其中,ρ为一个非负标量,用于权衡奖励与成本,γ为折扣因子,以及步骤2,对于每个环境步,收集经验样本,构建拉格朗日损失函数并更新拉格朗日乘子;所述收集经验样本,具体为:通过安全强化学习模型控制智能体按策略采取动作与环境交互,收集经验样本{ot+1,at,rt+1,ct+1}并添加到经验回放池其中ot+1、at、rt+1与ct+1分别表示智能体t+1时刻的图像观测样本ot+1、t时刻采取的动作at、t+1时刻获得的奖励rt+1与成本ct+1,为经验回放池;步骤3,对于每个梯度步,从经验回放池中采样数据序列,构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数,更新安全强化学习模型的模型参数;采用序列作为序列条件变分推断模型的输入,包括高维图像观测ot、动作向量at、奖励rt、成本ct、以及潜在状态表征zt;先验潜在状态表征z被分解为因此,序列条件变分推断模型损失函数为: 考虑到环境中成本的二值化特性,条件成本概率pθct+1|zt+1;at被定义为Bernoulli分布,条件编码器条件解码器pθot+1|zt+1;at、条件奖励函数pθrt+1|zt+1;at、以及潜在状态表征先验分布pθzt+1|zt;at,都被建模为多元高斯分布,其均值与对角方差通过一个前馈神经网络来表示;在安全互模拟度量模型损失函数中采用2-Wasserstein度量W2;步骤4,重复步骤2-3,直到获得最优模型参数。

全文数据:

权利要求:

百度查询: 中国矿业大学 一种基于安全互模拟度量的视觉强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。