首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于反馈信息的代码生成模型训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学唐山研究院;北京理工大学

摘要:本发明涉及代码生成领域,具体为一种基于反馈信息的代码生成模型训练方法,应用于CodeFB框架,CodeFB框架包括第一代码大模型、第二代码大模型、编译器以及在线缓冲区,其中第一代码大模型和第二代码大模型共享权重;从单元测试反馈中提取了多粒度的反馈信息用于训练,即“粗粒度反馈”、“细粒度反馈”和“自适应反馈”;粗粒度反馈信息主要是对程序中出错的代码进行全局惩罚;细粒度反馈则能够精确识别并惩罚程序中代码特定的错误部分;而自适应反馈则根据程序通过的测试用例比例动态调整奖励,从而更精准地指导模型的训练过程,提升代码生成的准确性和效率。

主权项:1.一种基于反馈信息的代码生成模型训练方法,其特征在于,应用于CodeFB框架,CodeFB框架包括第一代码大模型、第二代码大模型、编译器以及在线缓冲区,其中第一代码大模型和第二代码大模型共享权重;所述方法包括:获取训练集,其中,训练集包括编程问题以及实现编程问题的基准程序;将编程问题分别输入第一代码大模型和第二代码大模型,得到第一代码大模型输出的预测程序以及第二代码大模型输出的目标程序;计算预测程序与基准程序之间的交叉熵损失得到监督损失值;将目标程序输入编译器,得到编译器针对目标程序的反馈信息,反馈信息包括目标程序的正确性、程序错误发生的原因和位置以及程序通过单元测试的数量;创建数据对并将数据对存储至在线缓冲区,每一数据对包括编程问题描述D、最新生成的目标程序W以及编译器对W的反馈信息FBW;从在线缓冲区中获取数据对,根据目标程序的正确性确定粗粒度奖励系数、根据程序错误发生的原因和位置确定细粒度奖励系数以及根据程序通过单元测试的数量确定自适应奖励系数;利用目标程序与基准程序之间的交叉熵损失结合粗粒度奖励系数确定粗粒度损失值,利用目标程序与基准程序之间的交叉熵损失结合细粒度奖励系数确定细粒度损失值,利用目标程序与基准程序之间的交叉熵损失结合自适应奖励系数确定自适应损失值;根据监督损失值、粗粒度损失值、细粒度损失值以及定自适应损失值计算总损失值,并根据总损失值对模型进行微调。

全文数据:

权利要求:

百度查询: 北京理工大学唐山研究院 北京理工大学 基于反馈信息的代码生成模型训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。