首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

应用于角色扮演推理类游戏的大语言模型的训练方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳须弥云图空间科技有限公司

摘要:本申请涉及虚拟游戏技术领域,提供了一种应用于角色扮演推理类游戏的大语言模型的训练方法。该方法包括:获取目标游戏的训练数据,并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务,其中,目标游戏为角色扮演推理类;依据第一自回归语言任务,利用训练数据对大语言模型进行上下文字级别训练;依据第二自回归语言任务,利用训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练;利用上下文字级别训练后的大语言模型在目标游戏为各个用户提供服务,收集各个用户对大语言模型提供服务的反馈,依据各个用户对大语言模型提供服务的反馈对大语言模型进行强化学习训练。

主权项:1.一种应用于角色扮演推理类游戏的大语言模型的训练方法,其特征在于,包括:获取目标游戏的训练数据,并生成进行上下文字级别训练的第一自回归语言任务和进行上下文句级别训练的第二自回归语言任务,其中,所述目标游戏为角色扮演推理类,所述目标游戏的训练数据包括目标游戏的背景数据、用户之间的交互数据和目标游戏的剧情数据;依据第一自回归语言任务,利用所述训练数据对大语言模型进行上下文字级别训练;依据第二自回归语言任务,利用所述训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练;利用上下文句级别训练后的大语言模型在所述目标游戏为各个用户提供服务,收集各个用户对所述上下文句级别训练后的大语言模型提供服务的反馈,依据各个用户对所述上下文句级别训练后的大语言模型提供服务的反馈对所述上下文句级别训练后的大语言模型进行强化学习训练;依据第一自回归语言任务,利用所述训练数据对大语言模型进行上下文字级别训练,包括:将所述训练数据中的每个字输入所述大语言模型,利用所述大语言模型预测每个字的下一个字的方式对所述大语言模型进行训练;将所述训练数据中的多个连续的字输入所述大语言模型,利用所述大语言模型预测多个连续的字的下一个字的方式对所述大语言模型进行训练;其中,所述上下文字级别训练为有监督学习训练;依据第二自回归语言任务,利用所述训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练,包括:将所述训练数据中的每个句子输入所述上下文字级别训练后的大语言模型,利用所述上下文字级别训练后的大语言模型预测每个句子的下一个句子的方式对所述上下文字级别训练后的大语言模型进行训练;将所述训练数据中的多个连续的句子输入所述上下文字级别训练后的大语言模型,利用所述上下文字级别训练后的大语言模型预测多个连续的句子的下一个句子的方式对所述上下文字级别训练后的大语言模型进行训练;其中,所述上下文句级别训练为有监督学习训练;或者,依据第二自回归语言任务,利用所述训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练,包括:将所述训练数据中的数据按照交互语义的主题进行划分,得到多个交互回合,每个交互回合对应一个主题,其中,每个交互回合包括N条数据,第i条数据和第i+1条数据互为相似句,N为奇数,第N条数据没有其对应的相似句,i为开区间(0,N)内的奇数,i+1小于N;将多个交互回合依次输入所述上下文字级别训练后的大语言模型,利用所述上下文字级别训练后的大语言模型预测每个交互回合中第N条数据对应的相似句的方式对所述上下文字级别训练后的大语言模型进行训练;其中,所述上下文句级别训练为有监督学习训练;所述方法还包括:生成常识问答任务、文案生成任务、翻译任务、自动摘要任务、文本分类任务和对话任务;依据所述第二自回归语言任务,利用所述训练数据对上下文字级别训练后的大语言模型进行上下文句级别训练的过程中,将所述常识问答任务、所述文案生成任务、所述翻译任务、所述自动摘要任务、所述文本分类任务和所述对话任务作为所述第二自回归语言任务的辅助任务对所述上下文字级别训练后的大语言模型进行相应的训练。

全文数据:

权利要求:

百度查询: 深圳须弥云图空间科技有限公司 应用于角色扮演推理类游戏的大语言模型的训练方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。