买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中国联合网络通信集团有限公司;联通数字科技有限公司
摘要:本申请提供一种大语言模型训练方法及基于大语言模型的文本生成方法。该大语言模型训练方法包括:获取待预测词的目标元素和预设词表中各词元素的嵌入向量;遍历预设词表中的各词元素,分别确定各词元素的嵌入向量与待预测词的嵌入向量之间的相似度;根据各相似度构建待预测词的标签向量,以得到训练数据集;其中,标签向量中的各分量为第一标识或第二标识,第一标识用于表征分量对应的相似度满足预设条件,第二标识用于表征分量对应的相似度不满足预设条件;基于训练数据集对预设网络进行训练,在满足训练退出条件时退出训练,得到训练好的大语言模型。本申请的方法,可以提升大语言模型的语义理解力。
主权项:1.一种大语言模型训练方法,其特征在于,所述方法包括:获取待预测词的目标元素和预设词表中各词元素的嵌入向量;其中,所述目标元素为所述待预测词所在语句中所述待预测词之前的预设数量的词元素,所述待预测词为所述预设词表中的任一词元素,所述词元素包括单词、数字和标点符号中的至少一种;遍历所述预设词表中的各词元素,分别确定各词元素的嵌入向量与待预测词的嵌入向量之间的相似度;根据各相似度构建所述待预测词的标签向量,以得到训练数据集;其中,所述标签向量中的各分量为第一标识或第二标识,所述第一标识用于表征所述分量对应的相似度满足预设条件,所述第二标识用于表征所述分量对应的相似度不满足所述预设条件,所述训练数据集中包括至少一个样本数据,所述样本数据中包括待预测词的标签向量以及该待预测词的目标元素,所述标签向量的长度与所述预设词表的长度相同;基于所述训练数据集对预设网络进行训练,在满足训练退出条件时退出训练,得到训练好的大语言模型。
全文数据:
权利要求:
百度查询: 中国联合网络通信集团有限公司 联通数字科技有限公司 大语言模型训练方法及基于大语言模型的文本生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。