买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
摘要:本发明公开了一种基于强化学习的类型推断方法及装置,包括:获取运行环境数据和代码数据,并对所述运行环境数据和所述代码数据进行预处理,得到合法类型序列及类型流序列;根据所述合法类型序列及所述类型流序列,进行带类型标注的代码生成任务的监督训练;根据生成的带类型标注的目标代码,进行静态反馈的强化学习训练,得到强化后的代码生成模型。本发明提出了使用基于生成的方法来预测类型,并通过强化学习来增强生成模型的类型预测的准确性,解决了现有的类型推断模型的预测结果与实际应用偏差较大的问题。
主权项:1.一种基于强化学习的类型推断方法,其特征在于,包括:获取运行环境数据和代码数据,并对所述运行环境数据和所述代码数据进行预处理,得到合法类型序列及类型流序列;根据所述合法类型序列及所述类型流序列,进行带类型标注的代码生成任务的监督训练;根据生成的带类型标注的目标代码,进行静态反馈的强化学习训练,得到强化后的代码生成模型;所述根据所述合法类型序列及所述类型流序列,进行带类型标注的代码生成任务的监督训练,包括:根据所述合法类型序列、所述类型流序列以及公开的带类型标注的代码示例,生成训练数据集;根据所述训练数据集对编码器及解码器进行带类型标注的代码生成任务的监督训练,得到监督模型;所述根据生成的带类型标注的目标代码,进行静态反馈的强化学习训练,得到强化后的代码生成模型,之前包括:以标注后的数据为基础构建一个强化学习环境,用于强化学习训练;所述强化学习环境包括:强化学习环境的状态与动作以及强化学习环境的环境运行流程;构建强化学习模型,并基于所述强化学习模型设置回合结束奖励及相对熵奖励;所述根据生成的带类型标注的目标代码,进行静态反馈的强化学习训练,得到强化后的代码生成模型,包括:将监督模型预测错误的样本汇总成困难样本数据集;在全部样本中采样与困难样本同样大小的普通样本,将所述困难样本数据集与所述普通样本共同构成混合数据集;使用所述监督模型的权重初始化模型,使用强化学习算法在所述困难样本数据集上训练所述监督模型,得到第一模型;以所述第一模型的权重初始化模型,使用带监督损失的强化学习在所述混合数据集上训练模型,得到第二模型;将所述监督模型作为学生模型,将所述第二模型作为教师模型进行训练,得到所述强化后的代码生成模型;所述带监督损失的强化学习的监督损失为:计算训练模型输出与样本标签之间的交叉熵损失,并将计算得到的交叉熵损失按照一定比例与强化学习损失相加后得到总损失;所述强化学习算法为近端策略优化算法,所述强化学习算法使用演员-评论家架构,所述强化学习算法的网络模型包括:策略输出层与价值输出层;所述策略输出层用于输出当前状态下的智能体可执行动作的概率分布,所述价值输出层用于输出当前状态的价值;所述代码生成模型为基于编码器-解码器架构的序列模型,用于执行带类型标注的代码生成任务,所述代码生成模型接受运行时环境解析得到的合法类型序列和目标代码的抽象语法树作为输入,并生成带类型标注的目标代码。
全文数据:
权利要求:
百度查询: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于强化学习的类型推断方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。