首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于模型双向迭代的训练样本的优化方法及其优化系统 

申请/专利权人:烟台海颐软件股份有限公司

申请日:2024-06-05

公开(公告)日:2024-07-05

公开(公告)号:CN118296387A

主分类号:G06F18/214

分类号:G06F18/214;G06F18/24;G06F16/33;G06F16/332;G06F16/35

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.23#实质审查的生效;2024.07.05#公开

摘要:基于模型双向迭代的训练样本的优化方法及其优化系统,涉及模型的样本训练领域。为了解决现有的小模型表达能力差、无法理解复杂问题、大模型处理速度慢、成本高的缺陷,本发明将提示词库输入到大模型中输出标签集合;生成训练样本集合;将标签集合和总训练样本集合输入下游小模型进行任务训练,获得下游任务模型;将验证结果错误对应的真实数据与训练样本集合进行组合,过滤劣质数据,优化训练样本集合;重复优化直到通过率达到预设阈值时完成第一次数据质量优化迭代,增加训练样本的数量重复优化迭代,直到所有标注的真实数据的验证通过率均达到预设阈值时,获得验证通过的下游任务模型。本发明主要用于优化模型的训练样本方法。

主权项:1.基于模型双向迭代的训练样本的优化方法,其特征在于,包括如下步骤:步骤1:建立第一标签提示词库P1,将所述第一标签提示词库P1输入到大模型中,输出满足预设规则的第一标签集合L1;步骤2:根据所述第一标签集合L1生成对应的训练样本s;从所述训练样本s中获取与任务训练标签对应的第一训练样本集合S1;步骤3:将所述第一标签集合L1和总训练样本集合SN输入下游小模型进行任务训练,获得下游任务模型;采用标注的第一真实数据R1对所述下游任务模型进行验证,若验证结果错误,则对验证结果错误的第二真实数据R2执行步骤4;步骤4:将所述验证结果错误对应的第二真实数据R2与所述第一训练样本集合S1进行组合,并根据组合后的数据制定第二标注提示词库P2,将其中的劣质数据进行过滤,从而优化与任务训练标签对应的第二训练样本集合S2;步骤5:重复步骤3和步骤4,直到所述下游任务模型对标注的真实数据的验证通过率达到预设阈值时,完成第一次数据质量优化迭代,执行步骤6;步骤6:增加训练样本的数量形成第三训练样本集合S3,重复步骤2到步骤5,重新组合并生成第三标注提示词库P3,直到所述下游任务模型对所有标注的真实数据的验证通过率达到预设阈值时,执行步骤7;步骤7:获得经步骤6验证通过的所述下游任务模型。

全文数据:

权利要求:

百度查询: 烟台海颐软件股份有限公司 基于模型双向迭代的训练样本的优化方法及其优化系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。