基于人类反馈与强化学习的问答回复方法、系统及设备

导航：龙图腾网> 最新专利技术> 基于人类反馈与强化学习的问答回复方法、系统及设备

申请/专利权人：神州医疗科技股份有限公司

申请日：2023-09-21

公开（公告）日：2024-07-02

公开（公告）号：CN116955576B

主分类号：G06F16/332

分类号：G06F16/332;G06F18/214;G06F40/289;G06F40/30;G16H70/40;G16H80/00

优先权：

专利状态码：有效-授权

法律状态：2024.07.02#授权;2023.11.14#实质审查的生效;2023.10.27#公开

摘要：本发明涉及语言处理技术领域，特别提供一种基于人类反馈与强化学习的问答回复方法、系统及设备，该方法包括：基于目标数据，构造数据集，并基于数据集，对预训练模型进行继续预训练，得到初始问答模型；基于目标数据，构造三元组指令集数据；利用三元组指令集数据对初始问答模型进行优化，得到问答模型；基于目标数据，构造人类偏好指令集数据；基于人类偏好指令集数据，对问答模型进行训练，得到奖励模型；利用人类反馈强化学习机制，对奖励模型进行强化，得到问答回复模型，从而实现具备专业度较高的问答能力，以及具有回复人性化且专业准确性更高的特点。

主权项：1.一种基于人类反馈与强化学习的问答回复方法，其特征在于，包括：基于目标数据，构造数据集，并基于数据集，对预训练模型进行继续预训练，得到初始问答模型，所述继续预训练包括：将文本中当前字符前面的所有字符输入至预训练模型中，并让预训练模型通过使用损失函数预测当前字符，该损失函数计算交叉熵：，式中，为当前输入的真实标签label，为模型对每个标签label的预测值；获取目标数据，基于预设规则，对目标数据进行标注，得到标注结果；基于标注结果，利用规则模板，构造三元组指令集数据，所述三元组指令数据集包括问题以及用三元组表示的问题答案；利用三元组指令集数据对初始问答模型进行优化，得到问答模型；基于目标数据，构造人类偏好指令集数据，包括：利用三元组，构造人类偏好问答提示指令集数据；基于标注结果和问答提示指令集数据，生成偏好数据集；所述偏好数据集包括问题以及用三元组表示的选择答案，以及错误答案；基于人类偏好指令集数据，对问答模型进行训练，得到奖励模型，包括：将人类偏好指令集数据输入至问答模型中进行训练，得到奖励模型，该奖励模型的训练会分别计算问答模型预测结果与选择答案和错误答案的loss，其训练目标是问答模型预测结果与选择答案的loss更小，与错误答案的loss更大，以确保问答模型回答的准确率；其中，奖励模型预测结果与选择答案和错误答案分别计算交叉熵损失值，其公式如下：式中，为当前输入的真实标签label；为模型对每个标签label的预测值；利用人类反馈强化学习机制，对奖励模型进行强化，得到问答回复模型；在强化过程中，将奖励模型与环境进行交互，在每个时间点t，奖励模型从环境中收到一个观测ot∈O，然后将动作at∈A发送给环境，假设有人类监督者能够表达轨迹片段之间的偏好，其中，一条轨迹片段是一组观测和动作在，则：式中，为轨迹片段；o0为初始状态的观测值；a0为初始状态的动作值；k为观测的状态总数；当令表示相比于轨迹片段，人类监督者更喜欢轨迹片段时，奖励模型的目标是产生人类更喜欢的轨迹，同时尽可能少地向人类提问；通过以下方式评估算法的结果：当时，其平均收益：其中，为最大化平均收益，为状态值，为出现的概率，与参数有关，为状态的收益；进而计算出最大化平均收益更新到问答模型的参数矩阵中，其具体算式为：其中，Wh为问答模型原本的权重矩阵，Wi为更新完毕的问答模型权重矩阵；通过将奖励模型作为老师，问答模型作为学生的模式，奖励模型通过强化学习的手段进行训练优化，得到问答回复模型，其中奖励模型是单独训练的一个奖励模型。

全文数据：

权利要求：

百度查询：神州医疗科技股份有限公司基于人类反馈与强化学习的问答回复方法、系统及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种球墨铸铁管T型承插式接口直管及弯管外锚连接器

下一篇：一种裸光纤包层研磨装置及方法

相关技术

一种球墨铸铁管T型承插式接口直管及弯管外锚连接器

一种裸光纤包层研磨装置及方法

车辆控制方法、装置、电子设备和存储介质

反式环辛烯缀合物

一种压电陶瓷材料及其制备方法和应用

一种继电保护器

粘合剂组合物和粘合片

用于补偿显示装置的亮度的方法和显示装置

一种高能多通道相控表面波检测系统及检测方法

一种铀矿勘查用花岗岩型铀矿钻探测井断线报警系统

一种基于配棉工序的纱线质量预测方法、系统和储存介质

超高耐折二榔皮聚氨酯树脂及其制备方法

问答相关技术

智能问答系统和方法及相关设备_深港产学研基地(北京大学香港科技大学深圳研修院)_202011476684.4

视觉问答方法、装置、设备及存储介质_腾讯科技(深圳)有限公司_202410503213.X

基于大语言模型的医疗问答方法和装置_支付宝(杭州)信息技术有限公司_202410888561.3

问答处理方法、装置、设备及程序产品_科大讯飞股份有限公司_202410506658.3

一种知识图谱问答方法、装置及存储介质_北京邮电大学_202410607312.2

一种基于电子病历问答模型的数据预处理系统_生命奇点(北京)科技有限公司_202311516587.7

一种大模型与知识图谱协同的桥梁管养问答方法_重庆交通大学_202410530331.X

一种针对规章制度的企业知识问答方法及系统_长江证券股份有限公司_202410891716.9

基于知识图谱的智能问答方法、装置和计算机设备_中国平安人寿保险股份有限公司_202010582584.3

基于NLP与大语言模型的投资决策咨询问答方法及系统_中联国际工程管理有限公司_202311749960.3

回复相关技术

一种客服回复时效处理方法、装置、设备及介质_广州品唯软件有限公司_202410623515.0

用于生成回复信息的方法及装置、电子设备和介质_北京百度网讯科技有限公司_202410437369.2

自然语言结合自定义组件的聊天机器人回复方法及系统_浪潮通信信息系统有限公司_202410572645.6

一种汽车回复反射器模具_东莞市固利精密模具有限公司_202410128226.3

回复语句生成方法、装置、设备及存储介质_腾讯科技(深圳)有限公司_202310096566.8

一种形状记忆筋材的回复应力测试装置_富佰新材料(浙江)有限公司_202323026165.X

一种回复文本的生成方法和相关装置_腾讯科技(深圳)有限公司_202410569675.1

虚拟对象的对话回复方法、装置、计算机设备和存储介质_广州趣研网络科技有限公司_202410386513.4

信息回复方法、装置、电子设备和存储介质_京东科技控股股份有限公司_202110419128.1

消息回复方法、装置、电子设备及可读存储介质_维沃移动通信有限公司_202410493631.5

学习相关技术

学习数据处理装置、学习数据处理方法和介质_横河电机株式会社_202110351043.4

联邦学习客户端通信压缩方法、客户端装置及联邦学习系统_南京大学_202410516751.2

基于联邦学习和双重监督对比学习的故障诊断方法及系统_山东大学_202410501155.7

分布式机器学习系统的机器学习方法、装置、系统_腾讯科技(深圳)有限公司_202011267392.X

一种遥控学习方法_深圳市茁壮网络股份有限公司_202410668866.3

一种基于残差分层强化学习的臂-手机器人技能学习方法_重庆大学_202410493736.0

一种基于强化学习的灵巧臂手机器人复杂技能学习方法_重庆大学_202410614847.2

使用无服务器计算架构的机器学习_亚马逊技术有限公司_202280084469.0

基于深度学习的水下目标检测机器人_河南大学_202410602431.9

使用机器学习检验光罩的系统和方法_科磊股份有限公司_201880081260.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于人类反馈与强化学习的问答回复方法、系统及设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务