买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本申请公开了一种面向垂域大模型预训练的数据配比方法、装置及设备,涉及数据处理技术领域。该方法应用于计算机集群,包括以下步骤:确定目标领域,将领域子集和通用子集输入训练模型,计算注意力特征,得到领域子集和通用子集的注意力分布;利用训练模型对领域子集和通用子集进行知识探测,得到领域子集和通用子集的知识权重;基于领域子集和通用子集的注意力分布和知识权重,确定训练数据集的混合权重;根据训练数据集的混合权重动态调整训练数据集的混合比例,对训练模型进行进一步训练,直至训练模型达到预设标准。本方案综合了数据垂直领域和通用领域的特性,不断优化模型性能,实现了精准和有效的数据配比,提高了模型训练的效果和性能。
主权项:1.一种面向垂域大模型预训练的数据配比方法,其特征在于,应用于计算机集群,所述计算机集群包括多个计算机设备,所述方法包括以下步骤:确定目标领域,将领域子集和通用子集输入训练模型,计算注意力特征,得到所述领域子集和所述通用子集的注意力分布;所述目标领域包括医疗领域,所述领域子集包括医疗文献数据库,所述通用子集包括维基百科;包括:从第一领域子集Xd1,Xd2,……,Xdn和通用子集Xg1,Xg2,……,Xgm中随机抽取Xi′作为源数据集,其中,n表示领域子集的数量,m表示通用子集的数量,i∈[d1,……,dn,g1,……,gm];从第二领域子集X*d1,X*d2,……,X*dn中随机抽取Xt′作为目标数据集,其中,t∈[d1,……,dn],所述第一领域子集和所述第二领域子集为所述领域子集中的不同数据集;将所述源数据集Xi′和所述目标数据集Xt′输入训练模型M,计算得到相应的注意力矩阵Ai和At,其中,Ai和At是维数为的多维数组,|B|表示数据的批量大小,L×H表示transformer的层数和多头自注意力数,S2表示序列之间的两两注意力关系;利用所述训练模型对所述领域子集和所述通用子集进行知识探测,得到所述领域子集和所述通用子集的知识权重;包括:计算所述训练模型M在所述源数据集Xi′上的困惑度pi,M;基于所述困惑度pi,M得到所述知识权重为Ki=1pi,M,其中,pi,M表示困惑度,Ki表示知识权重;基于所述领域子集和所述通用子集的注意力分布和知识权重,确定训练数据集的混合权重;包括:基于注意力矩阵Ai和At,计算源数据集Xi′的数据集权重如下: 其中,表示注意力矩阵Ai在|B|维度上的平均值,表示注意力矩阵At在|B|维度上的平均值,数据集权重wi表示源数据与目标数据在注意力上的近似程度;根据源数据集Xi′的困惑度pi,M,计算惩罚参数ΔPi如下: 基于惩罚参数ΔPi,得到训练数据集的混合权重为:w′i=wi+ΔPi3其中,w′i表示混合权重,惩罚参数ΔPi用于平衡训练模型与注意力分布之间的关系;根据所述训练数据集的混合权重动态调整所述训练数据集的混合比例,对所述训练模型进行训练,直至所述训练模型达到预设标准。
全文数据:
权利要求:
百度查询: 国泰新点软件股份有限公司 一种面向垂域大模型预训练的数据配比方法、装置及设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。