恭喜浪潮软件科技有限公司王珂琛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜浪潮软件科技有限公司申请的专利一种知识图谱赋能大模型知识库的方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118733790B 。
龙图腾网通过国家知识产权局官网在2025-03-25发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411215565.1,技术领域涉及:G06F16/36;该发明授权一种知识图谱赋能大模型知识库的方法及装置是由王珂琛;林杰;李照川;赵烨;王金超;郭凤;代吉仁;吴婷婷设计研发完成,并于2024-09-02向国家知识产权局提交的专利申请。
本一种知识图谱赋能大模型知识库的方法及装置在说明书摘要公布了:本发明涉及知识库领域,具体提供了一种知识图谱赋能大模型知识库的方法及装置,S1、将文件导入知识存储模块,加载文档中文本信息,设置相似度阈值threshold,完成文档切片;S2、加载Embedding模型;S3、加载Extractor模型;S4、输入问题,完成query预处理;S5、设定Top‑K的数值,召回相似度最高的Top‑K个文本切片待用;S6、设定Top‑N的数值,提取三元组信息待用;S7、将召回的文本切片和三元组信息融合形成提示词Prompt,输入给大模型进行推理;S8、大模型经过推理后,生成回复。本发明能够增强知识库输出内容的稳定性和准确性,并提高知识的可解释性和可溯源性。
本发明授权一种知识图谱赋能大模型知识库的方法及装置在权利要求书中公布了:1.一种知识图谱赋能大模型知识库的方法,其特征在于,所述知识库分为知识存储模块和知识问答模块,具有如下步骤:S1、将文件导入知识存储模块,加载文档中文本信息,设置相似度阈值threshold,完成文档切片;将文件导入知识存储模块,加载文档中文本信息,设置相似度阈值threshold,利用BERT模型按照文本顺序,从前向后依次判断相邻两个段落的相似度分数是否大于threshold;如果大于,则将两个段落合并为一段;否则切开,最终形成多层文档切片;S2、加载Embedding模型,将文档切片向量化并存储;加载Embedding模型,将文档切片输入模型中,将文档中的高维度数据映射到低维度空间转化为数值向量,并且语义相近的词,在向量空间上具有相似的位置,实现降维存储;S3、加载Extractor模型,提取文档切片中三元组信息,写入图数据库,完成图存储;进一步包括:S3.1、对文档片段中文本信息进行标准化处理,统一字符编码为UTF-8,通过搜索文档中的字符编码,筛选出制表符、换行符、空格、空白行及与文本无关的特殊符号并移除,完成对文档切片的清洗,去除无关的格式化标记、噪声数据;S3.2、使用自然语言处理工具对文本内容进行分词,将文本分割成词组,对于具有定制化含义的关键词,通过导入自定义关键词词典的方式对特殊词语进行自定义规范,自定义关键词词典的建立格式为(词语,词性),然后导入自定义停用词词典,去除文本中的停用词;S3.3、加载预训练的Extractor模型,使用标注的数据集对模型进行微调训练,然后利用训练好的Extractor模型对文档进行实体识别,提取以名词为主的实体,并获得提取实体的属性信息,进一步抽取实体之间的关系,以动词、描述性语句为主,完成对文档的实体识别、关系抽取及属性提取;S3.4、根据抽取到的实体、关系、属性,构建出“实体-关系-实体”或“实体-属性-值”形式的三元组,并进行重复信息合并和人工检验;S3.5、在图数据库中定义节点、边及属性,并将构建好的三元组导入图数据库中,形成图形结构并保存;S4、输入问题query,完成query预处理;在知识问答模块中,针对输入的问题query,用Embedding模型对query进行向量化表示,用Extractor模型提取query中的实体关键词;S5、设定Top-K的数值,召回相似度最高的Top-K个文本切片待用;设定Top-K的数值,使用余弦相似度计算方法计算query向量与向量存储中的切片向量间的相似度,根据相似度大小进行排序,召回相似度最高的Top-K个文本切片待用;S6、设定Top-N的数值,遍历图存储数据,搜索出Top-N跳以内的子图,提取三元组信息待用;设定Top-N的数值,基于提取的实体关键词利用搜索算法遍历图存储数据,搜索出Top-N跳以内的子图,提取其实体、实体关系三元组信息,格式化为文本待用;S7、将召回的文本切片和三元组信息融合形成提示词Prompt,输入给大模型进行推理;具体包括:假设输入的问题query用Q表示,将文本切片内容A生成提示词片段“问题所涉及的文本切片内容‘A’”,将三元组信息格式化为文本后内容B生成提示词片段“问题所涉及实体、实体关系‘B’”,最后形成提示词内容为“请根据问题所涉及的文本切片内容‘A’和问题所涉及实体、实体关系‘B’反馈问题Q的回答,反馈内容要严格遵守‘B’中的实体和实体关系”;如果大模型推理过程中发现无法从输入的提示词中回答输入的问题query,则启动追问机制,反馈追问问题,通过多轮引导用户输入问题细节来明确用户问题从而重复步骤S2至S7操作得到合适的答案;S8、大模型经过推理后,生成回复。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浪潮软件科技有限公司,其通讯地址为:250000 山东省济南市高新区浪潮路1036号浪潮科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。