买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于图技术的生成训练语料的方法和装置,包括:数据采集模块,用于从互联网和图数据库中采集文本数据;从互联网和图数据库中采集文本数据,并对数据进行预处理;基于预处理后的文本数据构建图结构,其中节点表示文本片段,边表示文本片段之间的关联关系及其属性;通过遍历图结构,提取与训练目标相关的文本片段集合;将提取的文本片段集合进行整合和过滤,生成用于大模型训练的高质量语料。本发明能够解决现有技术中训练语料生成效率低、质量不高的问题,并有效降低大模型的幻觉现象。
主权项:1.一种基于图技术的生成训练语料的方法,其特征在于,包括如下步骤:步骤1、数据采集:从互联网和图数据库中采集文本数据,并对数据进行预处理;步骤2、图构建:基于预处理后的文本数据构建图结构,其中节点表示文本片段,边表示文本片段之间的关联关系及其属性;步骤3、图遍历:通过遍历图结构,提取与训练目标相关的文本片段集合;步骤4、语料生成:将提取的文本片段集合进行整合和过滤,生成用于大模型训练的高质量语料。
全文数据:
权利要求:
百度查询: 达梦数据技术(江苏)有限公司 一种基于图技术的生成训练语料的方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。