一种基于安全互模拟度量的视觉强化学习方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国矿业大学

摘要：本发明公开了一种基于安全互模拟度量的视觉强化学习方法，首先，建立序列条件变分推断模型、安全互模拟度量模型与安全强化学习模型，并初始化模型参数；对于每个环境步，收集经验样本，构建拉格朗日损失函数，并更新拉格朗日乘子；对于每个梯度步，从经验回放池中采样数据序列，构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数，构建安全强化学习模型并更新模型参数；最后，重复上述步骤直到获得最优模型参数。本发明能够学习到紧凑且富含信息的视觉状态表征，同时满足预设的安全约束要求。

主权项：1.一种基于安全互模拟度量的视觉强化学习方法，其特征在于，具体包括如下步骤：步骤1，构建序列条件变分推断模型、安全互模拟度量模型和安全强化学习模型，并初始化模型参数；所述序列条件变分推断模型用于将高维视觉观测压缩为低维潜在状态表征，所述安全互模拟度量模型用于量化状态之间的行为相似性，使得任意两个所述低维潜在状态表征之间的距离尽可能接近其对应状态之间的安全互模拟度量；构建序列条件变分推断模型，具体包括：给定状态空间动作空间奖励r和成本c，序列条件变分推断模型旨在通过学习一个联合条件生成分布pθo,r,c,z；a，构建一个平滑的潜在状态空间其参数为θ；假设为联合条件推断分布，其参数为作为联合条件生成分布pθo,r,c,z；a的合理近似；当给定潜在状态表征z和动作a后，o、r、c之间是条件独立的；换句话说，pθo,r,c|z；a＝pθo|z；apθr|z；apθc|z；a；最小化KL散度以便使更接近pθo,r,c,z；a，即，在安全互模拟度量模型中，安全互模拟度量的定义如下：给定一个连续的策略π∈Π，其中Π表示策略空间，任意两个状态之间的安全互模拟度量定义为：其中，ρ为一个非负标量，用于权衡奖励与成本，γ为折扣因子，以及步骤2，对于每个环境步，收集经验样本，构建拉格朗日损失函数并更新拉格朗日乘子；所述收集经验样本，具体为：通过安全强化学习模型控制智能体按策略采取动作与环境交互，收集经验样本{ot+1,at,rt+1,ct+1}并添加到经验回放池其中ot+1、at、rt+1与ct+1分别表示智能体t+1时刻的图像观测样本ot+1、t时刻采取的动作at、t+1时刻获得的奖励rt+1与成本ct+1，为经验回放池；步骤3，对于每个梯度步，从经验回放池中采样数据序列，构建序列条件变分推断模型损失函数与安全互模拟度量模型损失函数并更新模型参数，更新安全强化学习模型的模型参数；采用序列作为序列条件变分推断模型的输入，包括高维图像观测ot、动作向量at、奖励rt、成本ct、以及潜在状态表征zt；先验潜在状态表征z被分解为因此，序列条件变分推断模型损失函数为：考虑到环境中成本的二值化特性，条件成本概率pθct+1|zt+1；at被定义为Bernoulli分布，条件编码器条件解码器pθot+1|zt+1；at、条件奖励函数pθrt+1|zt+1；at、以及潜在状态表征先验分布pθzt+1|zt；at，都被建模为多元高斯分布，其均值与对角方差通过一个前馈神经网络来表示；在安全互模拟度量模型损失函数中采用2-Wasserstein度量W2；步骤4，重复步骤2-3，直到获得最优模型参数。

全文数据：

权利要求：

百度查询：中国矿业大学一种基于安全互模拟度量的视觉强化学习方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种冷却水槽的支撑结构

下一篇：一种分体式水杯

相关技术

一种冷却水槽的支撑结构

一种分体式水杯

一种复合型换热器管板连接结构

一种新型空气压缩机推力调整块

一种刮痧器

一种碳源存放箱

一种基于PWM的智慧路灯控制装置及系统

注塑件切割打标设备

一种高速内圆磨电主轴电机转子结构

TOF传感器

一种通信设备运输用防护装置

一种磷石膏基生态修复材料淋溶水回收设备

视觉相关技术

一种手表视觉测试组件_北京东方恒越科技开发有限公司_202323375499.8

一种电缆视觉检测装置_赛摩智能科技(洛阳)有限公司_202323615116.X

一种餐盒视觉检测设备_广东绿然智能装备有限公司_202323355122.6

目标区域的获取方法及视觉检测方法_无锡先导智能装备股份有限公司_201910628918.3

一种视觉整形定位自动化设备_安徽托哥食品有限公司_202420213331.2

分布式视觉集群机器人系统_西湖大学_202410805748.2

槟榔视觉转向机以及槟榔生产线_东莞市八禧达智能科技有限公司_202420319217.8

一种位差纠正机构及视觉检测装置_深圳市托普瑞科技有限公司_202323597841.9

一种低视力弱视儿童视觉训练设备_温州医科大学_202322965534.5

一种用于汽车横梁的视觉检测装置_张家港市博格机械有限公司_202410579032.5

强化相关技术

一种强化PVD涂层粘结强度的方法_合肥亿米特科技股份有限公司_202410504778.X

结构强化的制冷剂分配器_浙江国祥股份有限公司_202011019648.5

一种自动强化预扭处理装置_贵州航天风华精密设备有限公司_202410595775.1

强化去除胞外抗生素抗性基因的水处理方法_合肥市市政设计研究总院有限公司_202211353369.1

一种基于强化学习模型的机器人群体协调方法_中国人民解放军国防科技大学_202410733762.6

基于深度强化学习的自适应异步联邦学习方法及系统_齐鲁工业大学(山东省科学院)_202411052338.1

一种含氰土壤或氰渣强化降解处理装置_长春黄金研究院有限公司_202421728230.5

一种便于调节的强化型空调翅片换热器_江苏同力空调设备有限公司_202323393254.8

强化吸水的水凝胶组合物及其制备方法和应用_青岛糖吉数康科技有限公司_202410837352.6

一种强化助眠食疗食品及其制备和食用方法_裴建华_202410792617.5

度量相关技术

用于深度神经网络的混合精度量化策略确定方法和系统_云从科技集团股份有限公司_202110158390.5

度量空间划分边界的性能衡量方法、装置及相关设备_深圳大学_202110689186.6

一种运动姿势下服装衣下空气层厚度量化方法_苏州大学_202411067634.9

一种夹持力度量化控制式骨科复位钳_杭州邦尔骨科医院有限公司_202411066852.0

基于异构资源度量特征的算力网络工作流调度方法及系统_山东省计算中心(国家超级计算济南中心)_202410043836.3

一种传动轴花键轴叉耳孔同轴度量具_许昌远东传动轴股份有限公司_202323450602.0

一种基于不确定性度量的无袖带连续血压估计系统_电子科技大学_202211133073.9

一种基于混合精度量化与模拟退火剪枝的联邦学习训练方法_湘江实验室_202410765183.X

关系感知度量的跨域少样本遥感目标分类方法_大连理工大学_202411045601.4

基于锂离子电池机电信号离群度量的故障诊断方法及系统_中国科学技术大学_202410614104.5

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于安全互模拟度量的视觉强化学习方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务