一种面向垂域大模型预训练的数据配比方法、装置及设备

导航：龙图腾网> 最新专利技术> 一种面向垂域大模型预训练的数据配比方法、装置及设备

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本申请公开了一种面向垂域大模型预训练的数据配比方法、装置及设备，涉及数据处理技术领域。该方法应用于计算机集群，包括以下步骤：确定目标领域，将领域子集和通用子集输入训练模型，计算注意力特征，得到领域子集和通用子集的注意力分布；利用训练模型对领域子集和通用子集进行知识探测，得到领域子集和通用子集的知识权重；基于领域子集和通用子集的注意力分布和知识权重，确定训练数据集的混合权重；根据训练数据集的混合权重动态调整训练数据集的混合比例，对训练模型进行进一步训练，直至训练模型达到预设标准。本方案综合了数据垂直领域和通用领域的特性，不断优化模型性能，实现了精准和有效的数据配比，提高了模型训练的效果和性能。

主权项：1.一种面向垂域大模型预训练的数据配比方法，其特征在于，应用于计算机集群，所述计算机集群包括多个计算机设备，所述方法包括以下步骤：确定目标领域，将领域子集和通用子集输入训练模型，计算注意力特征，得到所述领域子集和所述通用子集的注意力分布；所述目标领域包括医疗领域，所述领域子集包括医疗文献数据库，所述通用子集包括维基百科；包括：从第一领域子集Xd1,Xd2,……，Xdn和通用子集Xg1,Xg2,……，Xgm中随机抽取Xi′作为源数据集，其中，n表示领域子集的数量，m表示通用子集的数量，i∈[d1,……,dn,g1,……,gm]；从第二领域子集X*d1,X*d2,……，X*dn中随机抽取Xt′作为目标数据集，其中，t∈[d1,……,dn]，所述第一领域子集和所述第二领域子集为所述领域子集中的不同数据集；将所述源数据集Xi′和所述目标数据集Xt′输入训练模型M，计算得到相应的注意力矩阵Ai和At，其中，Ai和At是维数为的多维数组，|B|表示数据的批量大小，L×H表示transformer的层数和多头自注意力数，S2表示序列之间的两两注意力关系；利用所述训练模型对所述领域子集和所述通用子集进行知识探测，得到所述领域子集和所述通用子集的知识权重；包括：计算所述训练模型M在所述源数据集Xi′上的困惑度pi，M；基于所述困惑度pi，M得到所述知识权重为Ki＝1pi，M，其中，pi，M表示困惑度，Ki表示知识权重；基于所述领域子集和所述通用子集的注意力分布和知识权重，确定训练数据集的混合权重；包括：基于注意力矩阵Ai和At，计算源数据集Xi′的数据集权重如下：其中，表示注意力矩阵Ai在|B|维度上的平均值，表示注意力矩阵At在|B|维度上的平均值，数据集权重wi表示源数据与目标数据在注意力上的近似程度；根据源数据集Xi′的困惑度pi，M，计算惩罚参数ΔPi如下：基于惩罚参数ΔPi，得到训练数据集的混合权重为：w′i＝wi+ΔPi3其中，w′i表示混合权重，惩罚参数ΔPi用于平衡训练模型与注意力分布之间的关系；根据所述训练数据集的混合权重动态调整所述训练数据集的混合比例，对所述训练模型进行训练，直至所述训练模型达到预设标准。

全文数据：

权利要求：

百度查询：国泰新点软件股份有限公司一种面向垂域大模型预训练的数据配比方法、装置及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于电源的不间断快速切换装置及方法

下一篇：一种降低针叶材化机浆废水中树脂酸含量的方法

相关技术

一种用于电源的不间断快速切换装置及方法

一种降低针叶材化机浆废水中树脂酸含量的方法

一种定子固定结构及轴向磁通电机

基于改进物理信息神经网络的减震装置优化方法及系统

一种小型精密轴类零件加工设备

一种SAP与其他系统的通用接口集成方法

一种无线供电压力实时测量的舞蹈鞋及方法、生产方法

静脉血栓栓塞症相关SNP位点检测引物组及试剂盒

一种基于RTDETR的半监督学习的电力设备状态识别方法及系统

异构GPU调度方法、装置、存储介质、电子设备及产品

一种基于地形扫描的定深度型播种机及播种方法

一种复合型重金属污染土壤修复剂及其制备方法

数据相关技术

数据接口的数据处理方法及装置_紫金诚征信有限公司_202411134481.5

数据同步的方法_中移互联网有限公司_202411139406.8

冷却数据中心_谷歌有限责任公司_202011076803.7

点云数据发送装置、点云数据发送方法、点云数据接收装置及点云数据接收方法_LG电子株式会社_202380035347.7

一种资产数据批量插入大数据分析平台的数据插入方法_北京优特捷信息技术有限公司_202410673898.2

数据加密传输装置_北京北卡星科技有限公司_202420626604.6

数据安全传输装置_盛视科技股份有限公司_202420465100.0

数据传输管理_美光科技公司_202210230887.8

数据处理装置及数据处理系统_昆易电子科技(上海)有限公司_202410566850.1

缓存数据写入方法、缓存数据读取方法及其存储介质_广东匠芯创科技有限公司_202411497523.1

预相关技术

预焊夹具_广州巨湾技研有限公司_202420552043.X

一种预捆扎装置及包括该预捆扎装置的捆扎机_佛山市卡姆机械科技有限公司_202420392000.X

预调度方法、装置、设备及介质_中国移动通信集团广东有限公司_202411071368.7

一种管线预埋卡具_中铁建工集团有限公司_202420923228.7

咖啡豆预筛选装置_王力咖啡(上海)有限公司_202411310380.9

一种管线预埋结构_江苏鸾翔机电工程有限公司_202420675504.2

可灭菌管道预过滤器_长沙炬创科技有限公司_202323635021.4

防松预涂扣件外观防护装置_东莞倍力扣金属制品有限公司_202420567160.3

预标注筛选方法、电子设备以及存储介质_浙江大华技术股份有限公司_202411200821.X

可调节预埋角度的爬架装置_中国华西企业有限公司_202421201412.7

训练相关技术

突防组合训练器_北京富丰睿科技有限公司_202420670810.7

识字训练素材生成装置、方法、识字训练方法及系统_北京师范大学_202411342485.2

一种利用下肢训练机器人进行坐站训练的方法_上海大学_202411137768.3

训练样本确定方法、网络模型训练方法、设备及存储介质_浙江大华技术股份有限公司_202411166378.9

在机器学习模型训练期间在模型大小和训练数据之间分配计算资源_渊慧科技有限公司_202380037218.1

可配重哑铃的训练器_浙江中盈健身器材有限公司_202420574086.8

一种力量训练装置_杨小寒_202323524433.0

一种手部训练结构_桂林市妇女儿童医院_202323383077.5

一种拳击训练反应球_浙江鑫哥工贸有限公司_202421042036.1

双模式控制的多训练方式腕关节康复训练装置及控制方法_吉林省金博弘智能科技有限责任公司_202411117193.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种面向垂域大模型预训练的数据配比方法、装置及设备

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务