基于邻域比较的大语言模型训练数据提取方法及系统

导航：龙图腾网> 最新专利技术> 基于邻域比较的大语言模型训练数据提取方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了一种基于邻域比较的大语言模型训练数据提取方法及系统，其方法包括以下步骤：利用攻击模型将前缀数据通过预设采样方法生成一组目标样本，并得到每个目标样本对应的损失值；对每个目标样本进行dropout掩码处理；利用邻域样本生成模型对一个目标样本的掩码处理位置进行预测，选取预测位置概率值排名前预设数值的样本作为目标样本的领域样本；利用攻击模型计算每个目标样本的领域样本的平均损失值；根据每个目标样本对应的损失值及每个目标样本的领域样本对应的平均损失值，从前缀数据生成的一组目标样本中选取其中一个目标样本作为最终训练数据样本；因此本发明解决大语言模型中训练数据提取低效的现状及提高了训练数据的提取精度。

主权项：1.一种基于邻域比较的大语言模型训练数据提取方法，其特征在于，包括以下步骤：将数据集拆分为前缀数据与后缀数据；利用攻击模型将所述前缀数据通过预设采样方法生成一组目标样本，并得到每个所述目标样本对应的损失值；对每个所述目标样本进行dropout掩码处理；对于每个所述目标样本，利用邻域样本生成模型对一个目标样本的掩码处理位置进行预测，将预测值符合条件的预测词汇替换掩码部分，得到目标样本的领域样本；利用攻击模型计算每个目标样本的领域样本的平均损失值；根据每个所述目标样本对应的损失值及每个目标样本的领域样本对应的平均损失值，从前缀数据生成的一组目标样本中选取其中一个目标样本作为最终训练数据样本。

全文数据：

权利要求：

百度查询：湖北省楚天云有限公司华中科技大学基于邻域比较的大语言模型训练数据提取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种小型精密轴类零件加工设备

下一篇：一种用于电源的不间断快速切换装置及方法

相关技术

一种小型精密轴类零件加工设备

一种用于电源的不间断快速切换装置及方法

一种遥控成套设备检验车

一种定子固定结构及轴向磁通电机

一种基于FPGA的片上异构DDR总线控制单元

板连接用的卡扣

一种SAP与其他系统的通用接口集成方法

一种自甘草酸单铵盐母液膏中分离甘草酸单铵盐和甘草苷的方法

人参二醇组皂苷替代地塞米松联合顺铂用于RM-1细胞株鼠前列癌移植瘤的抑制用途

基于改进物理信息神经网络的减震装置优化方法及系统

静脉血栓栓塞症相关SNP位点检测引物组及试剂盒

一种甲烷二磺酸亚甲酯的制备方法

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于邻域比较的大语言模型训练数据提取方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务