恭喜西安交通大学田锋获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西安交通大学申请的专利一种基于生成对抗用户模型的强化学习路径规划方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115249072B 。
龙图腾网通过国家知识产权局官网在2025-05-30发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210528946.X,技术领域涉及:G06N20/00;该发明授权一种基于生成对抗用户模型的强化学习路径规划方法是由田锋;朱海萍;马黛露丝;廖思霁;刘启东;陈妍;郑庆华;王茜莺;武亚强设计研发完成,并于2022-05-16向国家知识产权局提交的专利申请。
本一种基于生成对抗用户模型的强化学习路径规划方法在说明书摘要公布了:本发明公开了一种基于生成对抗用户模型的强化学习路径规划方法,属于学习资源路径规划领域。一种基于生成对抗用户模型的强化学习路径规划方法,包括以下步骤:1大数据驱动的用户群与训练数据集划分;2基于分层奖励函数强化学习的路径规划模型Planerui离线训练;3基于级联DQN算法完成路径规划。本发明提供的学习资源路径能够在完成至目标知识点的学习目标的同时,应对用户每一步学习中兴趣的变化。本发明能够为用户自适应地推荐路径上的学习资源,该路径规划方法考虑了用户学习过程中对学习资源的反馈以及学习资源本身的知识结构关系,实现学习资源路径规划。
本发明授权一种基于生成对抗用户模型的强化学习路径规划方法在权利要求书中公布了:1.一种基于生成对抗用户模型的强化学习路径规划方法,其特征在于,包括以下步骤:1)根据用户学习日志获取构建学习者相似度矩阵,利用谱聚类方法在学习者相似度矩阵上完成用户学习行为类型聚类,得到类用户学习行为类型,根据用户学习行为类型可划分得到每一种学习行为类型对应的训练数据集;2)结合知识森林,构建基于分层奖励函数强化学习的路径规划模型,所述基于分层奖励函数强化学习的路径规划模型中的奖励函数为序列决策奖励和知识点规划奖励构成的两层级的奖励函数,并将用户行为模型用作强化学习的环境,利用生成对抗训练的形式训练路径规划模型;3)以用户学习行为类型、用户历史学习序列、目标知识点、学习资源集合及课程知识森林作为输入,基于级联DQN算法完成至目标知识点的学习资源路径规划,输出规划路径;步骤2)构建基于分层奖励函数强化学习的路径规划模型中,强化学习对应的马尔科夫决策过程的五元组;其中,学习者作为环境,状态表示学习者时刻前的历史学习资源序列,动作表示时刻从所述时刻候选学习资源集合中选择一个学习资源推荐给学习者,动作集则表示时刻为学习者推荐的长度为的学习资源路径所对应的个动作集合;状态转移概率则对应在给定状态和动作集时转移到下一个状态的概率,同时作为用户动作的同等分布、奖励函数以及折扣因子;将奖励函数分解为序列决策奖励和知识点规划决策奖励,即;在计算序列决策奖励时,计算推荐子序列和实际交互子序列的序列层级准确度,如式(8): (8)式(8)中,代表序列决策精度,为实际交互子序列,为推荐的子序列,为子序列的一个长度为的子序列,代表所使用的长度为的子序列的个数;在计算知识点规划决策奖励函数时,考虑到所推荐学习资源与实际点击的学习资源难度是否匹配,利用学习时长估计学习资源难度,如下所示: (9)式(9)中,用户实际学习子序列为,预测用户学习序列为,为用于表示用户实际学习序列的表示向量,为用于表示预测的用户学习序列的表示向量,序列表示向量通过对序列中每个学习资源的特征向量取均值计算得到,和分别用于表示实际和预测的用户学习资源学习序列中第个学习资源的特征向量;表示第个学习资源的特征向量,表示该学习资源的默认学习时长,表示用户在该学习资源上的学习时长。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安交通大学,其通讯地址为:710049 陕西省西安市咸宁西路28号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。