Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于视觉预训练模型的模仿学习混合样本处理方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院自动化研究所

摘要:本发明提供一种基于视觉预训练模型的模仿学习混合样本处理方法及装置,该方法包括:获取专家样本集;向次优专家样本添加目标噪声得到噪声专家样本,根据噪声专家样本和最优专家样本得到混合样本集;标定混合样本集的权重系数,对重分布的混合样本集进行预测和评分,再根据评分结果训练策略网络和奖励函数网络,根据目标奖励函数网络对评估数据集的各样本进行评分,得到评估数据集对应的预测排序,以更新重分布的混合样本集中各样本对应的权重系数,最后根据目标策略网络对重分布后的权重系数进行模仿学习,得到优化后的专家样本。本发明所述方法针对品质不一的混合专家样本进行差异化学习,改善数据集样本分布,提升模仿学习智能体的泛化能力。

主权项:1.一种基于视觉预训练模型的模仿学习混合样本处理方法,其特征在于,包括:获取专家样本集,所述专家样本集包括最优专家样本和次优专家样本;向所述次优专家样本添加目标噪声,得到噪声专家样本,根据对抗生成网络对所述噪声专家样本和所述最优专家样本进行处理,得到混合样本集;对所述混合样本集中的各样本标定权重系数,得到重分布的混合样本集,根据策略网络对所述重分布的混合样本集进行预测,得到动作预测结果;根据奖励函数网络对所述动作预测结果进行评分,得到评分结果;根据判别损失函数和所述评分结果对所述策略网络和所述奖励函数网络进行训练,得到目标策略网络和目标奖励函数网络;根据所述目标奖励函数网络对评估数据集中的各样本进行评分,得到所述评估数据集对应的预测排序,根据所述预测排序计算排序误差损失,通过梯度优化更新所述重分布的混合样本集中各样本对应的权重系数,得到重分布后的权重系数,根据所述目标策略网络对所述重分布后的权重系数进行模仿学习,得到优化后的专家样本;所述评估数据集属于所述混合样本集;所述获取专家样本集包括:基于视觉预训练模型对所述专家样本集中各个样本进行向前图推理,并确定网络中间层对应的特征图为所述专家样本集的有效特征;所述基于视觉预训练模型对所述专家样本集中各个样本进行向前图推理包括:将专家样本集中各个样本对应原始特征图输入至视觉预训练模型,通过固定网络参数,仅对输入图像数据进行前向推理,在推理过程中,仅对视觉预训练模型的归一化层对应的均值和标准差参数进行更新;所述专家样本集包括如下场景中的至少一种所需的训练样本或测试样本:图像分类、目标检测和图像分割的图像处理任务。

全文数据:

权利要求:

百度查询: 中国科学院自动化研究所 基于视觉预训练模型的模仿学习混合样本处理方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。