恭喜北京控制工程研究所王勇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京控制工程研究所申请的专利面向复杂场景的强化学习决策方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117493884B 。
龙图腾网通过国家知识产权局官网在2025-06-20发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311533174.X,技术领域涉及:G06F18/214;该发明授权面向复杂场景的强化学习决策方法及装置是由王勇;解永春;王敏;李林峰;于欣欣;陈奥;王殿佑设计研发完成,并于2023-11-16向国家知识产权局提交的专利申请。
本面向复杂场景的强化学习决策方法及装置在说明书摘要公布了:本发明涉及人工智能技术领域,特别涉及一种面向复杂场景的强化学习决策方法及装置。获取目标环境的当前状态和与该当前状态对应的事件状态集,所述事件状态集是预先训练好的事件生成网络模型基于该当前状态确定的;所述事件生成网络模型是基于包含多个样本对的样本集训练得到的,每个所述样本对均包括目标环境的环境状态和与该环境状态相对应的事件集中各事件发生的概率;将所述当前状态和所述事件状态集输入至预先训练好的强化学习网络模型,输出与该当前状态相对应的决策,所述强化学习网络模型是以所述目标环境的环境状态和所述事件生成网络模型输出的事件状态集为输入训练得到的。本发明方法,可以对复杂场景做出准确的决策。
本发明授权面向复杂场景的强化学习决策方法及装置在权利要求书中公布了:1.一种面向复杂场景的强化学习决策方法,其特征在于,包括: 获取目标环境的当前状态和与该当前状态对应的事件状态集,环境状态为通过传感器获得的可观测信息,所述事件状态集是预先训练好的事件生成网络模型基于该当前状态确定的;所述事件生成网络模型是基于包含多个样本对的样本集训练得到的,每个所述样本对均包括目标环境的环境状态和与该环境状态相对应的事件集中各事件发生的概率; 将所述当前状态和所述事件状态集输入至预先训练好的强化学习网络模型,输出与该当前状态相对应的决策,所述强化学习网络模型是以所述目标环境的环境状态和所述事件生成网络模型输出的事件状态集为输入训练得到的; 所述样本集是通过如下方式确定的: 构建目标任务的仿真模型,所述目标任务对应由多个已知事件组成的事件集,每个已知事件对应一个概率函数,所述概率函数用于表征已知事件发生的概率; 针对所述目标任务的每个环境状态,均执行:利用所述仿真模型计算在该环境状态下每个所述已知事件对应的概率函数的值,得到与该环境状态对应的事件集中各已知事件发生的概率;将该环境状态作为输入、与该环境状态对应的事件集中各已知事件发生的概率作为输出,得到该样本集的一个样本对; 所述事件生成网络模型的具体训练过程包括: 确定监督学习模型的损失函数; 基于监督学习模型,利用所述样本集对所述事件生成网络模型进行训练; 针对每一轮训练,均基于所述损失函数对所述事件生成网络模型的参数进行修正,直至模型收敛,得到训练好的事件生成网络模型; 所述预先训练好的强化学习网络模型包括策略网络、评价网络和回报函数; 所述策略网络包括第一策略和第二策略;所述第一策略的输入为所述事件生成网络模型输出的事件状态集,输出为与该事件状态集相对应的操作目标,该操作目标作为所述第二策略的目标;所述第二策略的输入为与该事件状态集相对应的环境状态,输出为基于该操作目标和该环境状态做出的决策,该决策作用于目标环境,并产生新的环境状态; 所述回报函数以该新的环境状态为输入,并基于该新的环境状态计算该决策的回报值; 所述评价网络以决策前的环境状态和所述回报函数输出的回报值为输入,用于评价评价所述策略网略的优劣; 所述预先训练好的强化学习网络模型是通过如下方法训练得到的: 获取目标环境的当前环境状态;将该当前环境状态输入所述事件生成网络模型,得到与该当前环境状态相对应的当前事件集中各事件发生的概率;将该当前事件集中各事件发生的概率输入所述第一策略,输出当前操作目标;将该当前操作目标作为所述第二策略的目标,并将该当前环境状态输入所述第二策略,得到与该当前环境状态和该当前事件集相对应的当前决策,该当前决策作用于所述目标环境,以生成新的环境状态; 基于预设的强化学习算法,利用该新的环境状态更新所述强化学习网络模型参数,直至模型收敛,得到训练好的强化学习网络模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京控制工程研究所,其通讯地址为:100080 北京市海淀区中关村南三街16号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。