买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:郑州埃文科技有限公司
摘要:本发明公开了一种基于大语言模型的元数据自动标注方法,涉及自然语言处理技术领域,结合了系统提示、线性化信息、高质量的推理范式以及知识库,形成了最终的标记提示,这一过程不仅提高了标记的准确性,而且通过引入从训练集中提取的语义信息,大大提高了模型的泛化能力,最终,模型能够在不同数据环境下,针对复杂的数据结构,实现高效且准确的数据标记。
主权项:1.一种基于大语言模型的元数据自动标注方法,其特征在于,包括以下步骤:步骤S1、将待标注的数据输入,定义数据查询接口,从数据库D中提取特定字段的样例数据、归属关系和调用关系;步骤S2、信息线性化处理,将特定字段的样例数据、归属关系和调用关系结构化整合,进行信息线性化,生成线性文本,将其转化为能被LLM理解的文本语句;步骤S3、提示增强样本的构建,利用闭源LLM将线性文本生成结构化和详细的样本提示,准确指导LLM进行数据的标注分析;步骤S4、检索增强的语义对齐,构建知识存储库R并利用编码器从训练集C中嵌入实例表示,强化模型在面对新数据时的语义对齐和理解;步骤S5、进行综合性的提示构造,结合特定字段的样例数据、归属关系和调用关系、增强样本的构建逻辑以及检索增强的语义对齐信息,构建用于元数据标注的综合提示。
全文数据:
权利要求:
百度查询: 郑州埃文科技有限公司 一种基于大语言模型的元数据自动标注方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。