恭喜中科南京人工智能创新研究院;中国科学院自动化研究所胡庆浩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中科南京人工智能创新研究院;中国科学院自动化研究所申请的专利一种离线强化学习和持续在线微调的决策方法和模型获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119249360B 。
龙图腾网通过国家知识产权局官网在2025-05-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411767208.6,技术领域涉及:G06F18/25;该发明授权一种离线强化学习和持续在线微调的决策方法和模型是由胡庆浩;丁嘉慕;王培松;李成华;程健设计研发完成,并于2024-12-04向国家知识产权局提交的专利申请。
本一种离线强化学习和持续在线微调的决策方法和模型在说明书摘要公布了:本发明公开了一种离线强化学习和持续在线微调的决策方法和模型,该方法包括获取原始文本‑图像对数据和历史轨迹数据,通过特征匹配验证和标准化处理得到增强状态序列;利用多层级注意力机制进行序列预测,并通过知识蒸馏和任务适应性增强得到预训练模型参数;基于稳定性评估和可塑性控制对模型进行在线知识迁移,结合经验回放优化得到优化后模型参数;最后进行多维度性能评估和资源优化。本发明通过多模态特征融合、动态知识迁移和自适应优化机制,有效解决了特征表示不充分、灾难性遗忘和优化效率低等问题,提高了模型的学习效率和泛化能力。
本发明授权一种离线强化学习和持续在线微调的决策方法和模型在权利要求书中公布了:1.一种离线强化学习和持续在线微调的决策方法,其特征在于,包括如下步骤:S1、获取原始文本-图像对数据,分别进行文本标准化处理和图像增强编码,得到标准化文本序列和标准化图像特征;获取历史轨迹数据,包含状态序列、动作序列和奖励序列;将标准化文本序列、标准化图像特征与状态序列进行多模态融合,得到增强状态序列;对增强状态序列、动作序列和奖励序列进行分布特征提取和校准处理,得到校准后状态序列、校准后动作序列和校准后奖励序列;基于校准后状态序列、校准后动作序列和校准后奖励序列,构建任务特征并计算相似度,得到任务相似度矩阵;S2、基于增强状态序列、校准后动作序列、校准后奖励序列和任务相似度矩阵,采用多层级注意力机制进行特征提取,得到融合注意力特征;基于融合注意力特征,构建分层预测网络,进行序列预测,得到预测结果序列;基于预配置的初始模型和校准后状态序列,构建记忆缓冲池,得到优化记忆池;基于优化记忆池,进行多任务知识蒸馏,得到学生模型参数;基于任务相似度矩阵,对学生模型参数进行任务适应性增强,得到适应性模型参数;基于预测结果序列和适应性模型参数,进行离线序列预测训练,得到预训练模型参数和代表性样本集;S3、分析预训练模型参数在历史任务上的表现,得到稳定性评估报告;基于预存储的新任务数据,计算可塑性需求,得到可塑性控制参数;基于稳定性评估报告和可塑性控制参数,对模型进行在线知识迁移,得到迁移后模型参数;基于迁移后模型参数、代表性样本集和优化记忆池,进行经验回放和参数优化,得到优化后模型参数;S4、基于优化后模型参数,进行多维度模型性能评估,得到综合性能指标;基于综合性能指标,动态调整模型参数,得到调优后参数;基于调优后参数,收集系统资源使用状态,得到资源占用数据;基于资源占用数据,优化资源分配策略,得到优化配置参数;基于优化配置参数,监控系统运行状态,检测和处理异常情况,得到系统状态报告。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中科南京人工智能创新研究院;中国科学院自动化研究所,其通讯地址为:211135 江苏省南京市江宁区创研路266号麒麟人工智能产业园3号楼3楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。