买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于状态语义表征学习内在奖励的强化学习方法,属于深度学习与机器学习领域,包括以下步骤:首先,提取强化学习算法与环境交互当前步的视觉状态图像描述;其次,基于视觉状态图像描述构建基于图像信息的内在奖励值1;然后将视觉状态图像描述采用预训练的方法转换为视觉状态图像文本表征,基于视觉状态图像文本表征构建基于语义信息的内在奖励值2;紧接着,对内在奖励值1和内在奖励值2进行融合获得当前步最终内在奖励值;最后,将当前步最终内在奖励值结合环境反馈值进行强化学习策略训练,获得最终的强化学习策略;本发明提供的一种基于状态语义表征学习内在奖励的强化学习方法,提升强化学习解决环境稀疏奖励的性能与效率。
主权项:1.一种基于状态语义表征学习内在奖励的强化学习方法,其特征在于,具体步骤如下:步骤S1、提取强化学习算法与环境交互当前步的视觉状态图像描述;步骤S2、基于视觉状态图像描述构建基于图像信息的内在奖励值1;步骤S3、将步骤S1中的视觉状态图像描述采用预训练的方法转换为视觉状态图像文本表征,基于视觉状态图像文本表征构建基于语义信息的内在奖励值2;步骤S4、对内在奖励值1和内在奖励值2进行融合获得当前步最终内在奖励值;步骤S5、当前步最终内在奖励值结合环境反馈值进行强化学习策略训练,获得最终的强化学习策略;步骤S2的具体过程如下:步骤S2.1、使用ResNet神经网络构建图像描述的目标ResNet神经网络;步骤S2.2、使用与步骤S2.1相同的ResNet神经网络构建图像描述的可学习ResNet神经网络;步骤S2.3、将目标ResNet神经网络与可学习ResNet神经网络的状态表征差异作为内在奖励值1,计算表达式如下: ;式中,表示内在奖励值1,与分别为目标ResNet神经网络与可学习ResNet神经网络,为当前步视觉状态描述,为超参数,取值范围为,初始值为1,随着强化学习训练线性递减至0,表示向量的范数的平方;步骤S3的具体过程如下:步骤S3.1、采用预训练的ClipCap模型对状态进行文本化描述;步骤S3.2、采用预训练的Bert模型对上述文本化描述进行向量化编码;步骤S3.3、重复步骤S3.1与步骤S3.2对强化学习执行动作之后的下一状态与该状态上一状态进行向量化编码;步骤S3.4、当前状态向量化编码与上一状态、下一状态向量化编码差异作为内在奖励值2,计算表达式如下: ;其中,表示内在奖励值2,为当前步视觉状态描述经过ClipCap模型以及Bert模型后获得的向量化编码表达,为上一步视觉状态描述经过ClipCap模型以及Bert模型后获得的向量化编码表达,为下一步视觉状态描述经过ClipCap模型以及Bert模型后获得的向量化编码表达,表示对向量中的所有元素进行绝对值处理,表示取向量与向量同一位置中的最大值,表示向量的范数。
全文数据:
权利要求:
百度查询: 深圳清华大学研究院 一种基于状态语义表征学习内在奖励的强化学习方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。