首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于人类反馈与强化学习的问答回复方法、系统及设备 

申请/专利权人:神州医疗科技股份有限公司

申请日:2023-09-21

公开(公告)日:2024-07-02

公开(公告)号:CN116955576B

主分类号:G06F16/332

分类号:G06F16/332;G06F18/214;G06F40/289;G06F40/30;G16H70/40;G16H80/00

优先权:

专利状态码:有效-授权

法律状态:2024.07.02#授权;2023.11.14#实质审查的生效;2023.10.27#公开

摘要:本发明涉及语言处理技术领域,特别提供一种基于人类反馈与强化学习的问答回复方法、系统及设备,该方法包括:基于目标数据,构造数据集,并基于数据集,对预训练模型进行继续预训练,得到初始问答模型;基于目标数据,构造三元组指令集数据;利用三元组指令集数据对初始问答模型进行优化,得到问答模型;基于目标数据,构造人类偏好指令集数据;基于人类偏好指令集数据,对问答模型进行训练,得到奖励模型;利用人类反馈强化学习机制,对奖励模型进行强化,得到问答回复模型,从而实现具备专业度较高的问答能力,以及具有回复人性化且专业准确性更高的特点。

主权项:1.一种基于人类反馈与强化学习的问答回复方法,其特征在于,包括:基于目标数据,构造数据集,并基于数据集,对预训练模型进行继续预训练,得到初始问答模型,所述继续预训练包括:将文本中当前字符前面的所有字符输入至预训练模型中,并让预训练模型通过使用损失函数预测当前字符,该损失函数计算交叉熵:,式中,为当前输入的真实标签label,为模型对每个标签label的预测值;获取目标数据,基于预设规则,对目标数据进行标注,得到标注结果;基于标注结果,利用规则模板,构造三元组指令集数据,所述三元组指令数据集包括问题以及用三元组表示的问题答案;利用三元组指令集数据对初始问答模型进行优化,得到问答模型;基于目标数据,构造人类偏好指令集数据,包括:利用三元组,构造人类偏好问答提示指令集数据;基于标注结果和问答提示指令集数据,生成偏好数据集;所述偏好数据集包括问题以及用三元组表示的选择答案,以及错误答案;基于人类偏好指令集数据,对问答模型进行训练,得到奖励模型,包括:将人类偏好指令集数据输入至问答模型中进行训练,得到奖励模型,该奖励模型的训练会分别计算问答模型预测结果与选择答案和错误答案的loss,其训练目标是问答模型预测结果与选择答案的loss更小,与错误答案的loss更大,以确保问答模型回答的准确率;其中,奖励模型预测结果与选择答案和错误答案分别计算交叉熵损失值,其公式如下: 式中,为当前输入的真实标签label;为模型对每个标签label的预测值;利用人类反馈强化学习机制,对奖励模型进行强化,得到问答回复模型;在强化过程中,将奖励模型与环境进行交互,在每个时间点t,奖励模型从环境中收到一个观测ot∈O,然后将动作at∈A发送给环境,假设有人类监督者能够表达轨迹片段之间的偏好,其中,一条轨迹片段是一组观测和动作在,则: 式中,为轨迹片段;o0为初始状态的观测值;a0为初始状态的动作值;k为观测的状态总数;当令表示相比于轨迹片段,人类监督者更喜欢轨迹片段时,奖励模型的目标是产生人类更喜欢的轨迹,同时尽可能少地向人类提问;通过以下方式评估算法的结果:当时,其平均收益: 其中,为最大化平均收益,为状态值,为出现的概率,与参数有关,为状态的收益;进而计算出最大化平均收益更新到问答模型的参数矩阵中,其具体算式为: 其中,Wh为问答模型原本的权重矩阵,Wi为更新完毕的问答模型权重矩阵;通过将奖励模型作为老师,问答模型作为学生的模式,奖励模型通过强化学习的手段进行训练优化,得到问答回复模型,其中奖励模型是单独训练的一个奖励模型。

全文数据:

权利要求:

百度查询: 神州医疗科技股份有限公司 基于人类反馈与强化学习的问答回复方法、系统及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。