奖励模型的训练方法、装置、电子设备及存储介质

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京达佳互联信息技术有限公司

摘要：本公开关于一种奖励模型的训练方法、装置、电子设备及存储介质，涉及人工智能技术领域，该方法包括：获取多个维度中每个维度对应的样本集合，该样本集合包括对应维度下的多个样本，基于每个维度对应的样本集合，对待训练的多个网络模型进行训练，得到每个维度对应的奖励模型，该奖励模型用于在对应维度下评价预训练大语言模型输出的回复文本，对每个维度对应的奖励模型进行融合，得到目标奖励模型，该目标奖励模型用于基于多个维度综合评价预训练大语言模型输出的回复文本。上述方法有效改善了奖励模型的训练效果，能够助力预训练大语言模型在细分维度上的能力演进。

主权项：1.一种奖励模型的训练方法，其特征在于，所述方法包括：获取多个维度中每个维度对应的样本集合，所述样本集合包括对应维度下的多个样本，所述样本包括样本问题、所述样本问题对应的样本回复文本以及所述样本回复文本在对应维度下的标注评价结果，所述维度是用于衡量预训练大语言模型输出的回复文本的质量标准；基于每个维度对应的样本集合，对待训练的多个网络模型进行训练，得到每个维度对应的奖励模型，所述奖励模型用于在对应维度下评价所述预训练大语言模型输出的回复文本的质量，其中，一个样本集合对应一个奖励模型；对每个维度对应的奖励模型进行融合，得到目标奖励模型，所述目标奖励模型用于基于所述多个维度评价所述预训练大语言模型输出的回复文本的综合质量。

全文数据：

权利要求：

百度查询：北京达佳互联信息技术有限公司奖励模型的训练方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种基于改进YOLOv8n的低空无人机目标检测方法及装置

下一篇：一种门槛内外板的卡接结构

相关技术

一种基于改进YOLOv8n的低空无人机目标检测方法及装置

一种门槛内外板的卡接结构

一种新能源汽车用散热型电缆

一种不燃保温板用贮存装置

功率放大器、射频前端模组及电子设备

超标量处理器、超标量处理器的调试方法、装置及设备

一种利用发动机余热的“柴油+醇氢”混合燃料动力系统

航空物流流程异常预警方法及系统、电子设备及存储介质

一种汽车模块化架构数据搭建方法、系统及终端

介质排出装置、图像读取装置

一种相变冷板及电力电子器件的散热系统

混动车辆挡位控制方法、装置、介质和设备

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

奖励模型的训练方法、装置、电子设备及存储介质

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务