恭喜浩鲸云计算科技股份有限公司鲍钟峻获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浩鲸云计算科技股份有限公司申请的专利一种基于树近邻上下文的大语言模型RAG优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119293195B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411817803.6,技术领域涉及:G06F16/3329;该发明授权一种基于树近邻上下文的大语言模型RAG优化方法是由鲍钟峻;王玉木;陈前进;季伟;昌龙设计研发完成,并于2024-12-11向国家知识产权局提交的专利申请。
本一种基于树近邻上下文的大语言模型RAG优化方法在说明书摘要公布了:本发明一种基于树近邻上下文的大语言模型RAG优化方法,包括,读取文档的目录结构和内容,生成对应的目录树并转换为包含标题和级别的Markdown格式,若无标题则根据文档模板自动提取;按照优先级将文档切分为知识块;在召回知识块后,使用树邻近上下文方法扩充上下文,形成新的知识块列表;将扩充后的知识块按照文档标识分组和排序,基于不同的字段和置信度拼接参考资料,生成来自原始文档的字符串集合;使用构造的参考资料和新的知识块列表,拼接提示词并发送给大模型进行处理。本发明该方案通过优化上下文信息、强调重点内容、适配多种文档格式以及提升用户体验等方式,全面增强了大模型在信息检索和回答生成过程中的性能和实用性。
本发明授权一种基于树近邻上下文的大语言模型RAG优化方法在权利要求书中公布了:1.一种基于树近邻上下文的大语言模型RAG优化方法,其特征在于,包括以下步骤:步骤1:读取文档的目录结构和内容,生成对应的目录树并转换为包含标题和级别的Markdown格式,若无标题则根据文档模板自动提取;步骤2:按照优先级将文档切分为知识块,每个知识块包含字段,且包含的token数在预定范围内;具体包括:根据markdown文档目录、语义、块大小chunk_size把markdown文档切分成知识块;按标题切分:首先根据标题进行切分,形成初步的知识块,如果切分后的知识块小于指定的chunk_size,则不再进行进一步切分;语义切分:使用开源组件对初步知识块进行语义切分,如果语义切分后的块仍小于chunk_size,则不再切分;进一步切分:对于大于chunk_size的语义切分块,根据chunk_size进行进一步切分,切分后的块将共享相同的brother_chunk_id,以标识它们来自同一语义块,如果没有进一步切分,则brother_chunk_id设为-1;步骤3:使用检索方法召回与用户查询相关的知识块,扩充上下文,通过添加语义相近块、兄弟节点和父节点,形成新的知识块列表,确保总token数在模型支持的上下文长度内;步骤3具体如下:步骤3.1:使用检索方法召回与用户查询相关的知识块,生成初始的知识块列表;步骤3.2:对召回的知识块列表进行去重处理,移除重复的知识块,合并知识块列表,准备进行排序和扩充;步骤3.3:使用相关性算法或模型,根据用户查询对知识块重新排序,评分越高,表示知识块与查询的相关性越强;步骤3.4:计算当前知识块列表的总token数,根据大模型支持的最大上下文长度,确定可用于扩充的剩余token数;步骤3.5:将知识块按照文档标识进行分组,每个分组代表一个源文档中的相关知识块;在组内,按Rerank分数对知识块降序排序,按照各组中最高Rerank分数,对分组进行降序排序;步骤3.6:为分组扩充上下文知识块;步骤3.7:对每个分组内的知识块,按照知识块标识进行升序排序,确保知识块的顺序符合文档的逻辑结构,便于模型理解;步骤4:将扩充后的知识块按照文档标识分组和排序,基于不同的字段和置信度拼接参考资料,生成来自原始文档的字符串集合;拼接参考资料具体如下:构造参考资料,对每个知识块分组,按照知识块标识升序排序,遍历排序后的知识块,根据类型和来源拼接成字符串;根据知识块的来源,使用不同的字段拼接参考资料,并使用知识块的重新排序分数作为其置信度;对于扩充的知识块,采用原始召回知识块的分数;对于原始召回的知识块、语义相近的知识块、兄弟节点知识块,拼接目录链字段、内容字段和置信度;对于原始召回知识块的父节点知识块,拼接目录链字段、摘要字段和置信度;将所有拼接的字符串组合起来,形成参考资料列表,每个字符串对应一个知识块,所有字符串共同构成完整的参考资料;步骤5:使用构造的参考资料和新的知识块列表,拼接提示词并发送给大模型进行处理。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浩鲸云计算科技股份有限公司,其通讯地址为:210000 江苏省南京市雨花台区安德门大街50号B座6楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。