首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

利用基于忆阻器阵列的环境模型的策略优化方法和装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:清华大学

摘要:一种利用基于忆阻器阵列的动态环境模型的策略优化方法和策略优化装置。该方法包括:获取基于忆阻器阵列的动态环境模型;根据动态环境模型以及对象策略进行多个时刻的多次预测,得到包括对象策略对应于多个时刻的优化代价的数据样本集合;基于数据样本集合,使用策略梯度优化算法进行策略搜索以对对象策略进行优化。该方法利用基于忆阻器阵列的动态环境模型来生成数据样本集合,实现基于动态环境模型的长期动态规划,然后使用策略梯度优化算法等更加稳定的算法进行策略搜索,能够有效地优化对象策略。

主权项:1.一种利用基于忆阻器阵列的动态环境模型的策略优化方法,包括:获取基于所述忆阻器阵列的所述动态环境模型;根据所述动态环境模型以及对象策略进行多个时刻的多次预测,得到包括所述对象策略对应于所述多个时刻的优化代价的数据样本集合;基于所述数据样本集合,使用策略梯度优化算法进行策略搜索以对所述对象策略进行优化;其中,获取所述动态环境模型,包括:获取贝叶斯神经网络,其中,所述贝叶斯神经网络具有经训练得到的权重矩阵,根据所述贝叶斯神经网络的所述权重矩阵得到对应的多个目标电导值,将所述多个目标电导值映射到所述忆阻器阵列中,将对应于动态系统的时刻t的状态和隐输入变量作为输入信号输入到权重映射后的所述忆阻器阵列,通过所述忆阻器阵列对所述时刻t的状态和所述隐输入变量按照所述贝叶斯神经网络进行处理,从所述忆阻器阵列获取对应于处理结果的输出信号,其中,所述输出信号用于得到所述动态系统的时刻t+1的预测结果;其中,所述动态环境模型的表达为st+1=fst,at;W,ε,其中,st是所述动态系统的所述时刻t的状态,at是所述对象策略在时刻t的动作,W是所述贝叶斯神经网络的权重矩阵,ε是对应于所述忆阻器阵列的加性噪声,st+1是所述动态系统的所述时刻t+1的预测结果,其中,所述对象策略在时刻t的动作at=πst;Wπ,π表示所述对象策略的函数,Wπ表示策略参数,所述贝叶斯神经网络的权重矩阵W满足分布W~qW,所述加性噪声ε为加性高斯噪声ε∼N0,σ2。

全文数据:

权利要求:

百度查询: 清华大学 利用基于忆阻器阵列的环境模型的策略优化方法和装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。