首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于大语言模型的识别训练方法、识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东浪潮科学研究院有限公司

摘要:本申请涉及人工智能技术领域,公开了一种基于大语言模型的识别训练方法、识别方法,在对大语言模型进行训练时,通过知识蒸馏时冻结部分权重的大模型量化方法,观察多头注意力模块中各关键层的梯度变化从而冻结不稳定的关键层,蒸馏训练量化模型,提高了大语言模型量化微调的稳定性,能够获得更高精度和性能的量化模型,进一步减少了大语言模型部署和推理的存储空间和计算资源需求,进而提高了大语言模型的识别精度和效率,解决了现有大语言模型在识别的过程中,存在的识别精度差、效率低的问题。

主权项:1.一种基于大语言模型的识别训练方法,其特征在于,所述方法包括:获取文本数据以及对应的意思表示;将所述文本数据作为样本,将样本对应的意思表示作为样本标签,生成对应的训练样本集;将所述训练样本集输入至待训练的大语言模型中;基于所述训练样本集中的文本数据将所述待训练的大语言模型量化至所需位数;基于所述训练样本集中的样本标签,知识蒸馏训练量化后的模型,并计算训练时各模块关键层的梯度变化;基于训练时各模块关键层的梯度变化,选择要冻结权重的模块关键层,并重新进行部分权重冻结的知识蒸馏训练;当训练后的大语言模型满足预设的停止条件时,得到训练后的大语言模型,以用于对待识别的文本数据进行识别;其中,所述基于所述训练样本集中的文本数据将所述待训练的大语言模型量化至所需位数,包括:基于所述训练样本集中的文本数据,确定权重使用per-channel对称量化,量化精度为INT4;若待训练的大语言模型精度非BF16,则使用per-token非对称量化,量化精度为BF16;量化算法使用MinMax量化,满足公式: ,其中,Xq和Xr分别表示每一层权重或激活量化后的变量和全精度的变量,s为缩放因子,z是零点值;对于对称量化,,z=0,对于非对称量化,,z=minXr,其中,N为量化位数;所述计算训练时各模块关键层的梯度变化,包括:在任意一个epoch时,基于目标层的输出特征图和蒸馏损失函数,确定学生模型多个任意层或每一层的多头自注意力模块中的关键层的梯度的frobenius范数的平方F,其中,所述蒸馏损失函数为学生模型输出和教师模型输出之间的KL散度,学生模型为量化后的模型,教师模型为待训练的大语言模型;所述基于训练时各模块关键层的梯度变化,选择要冻结权重的模块关键层,包括:统计学生模型各关键层上的梯度变化F,基于横轴表示逐渐增大的训练epoch,纵轴表示梯度的frobenius范数的平方的值的坐标系,确定量化模型第n层上时各关键层的F随着epoch的曲线;基于所述曲线确定F值满足预设条件的关键层为要冻结权重的模块关键层。

全文数据:

权利要求:

百度查询: 山东浪潮科学研究院有限公司 基于大语言模型的识别训练方法、识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。