恭喜北京长河数智科技有限责任公司;长河信息股份有限公司张煇获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜北京长河数智科技有限责任公司;长河信息股份有限公司申请的专利一种基于大语言模型及向量库构建知识图谱的方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119129722B 。
龙图腾网通过国家知识产权局官网在2025-03-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411177906.0,技术领域涉及:G06N5/022;该发明授权一种基于大语言模型及向量库构建知识图谱的方法是由张煇;剌昊跃;王垒峰;罗超玲设计研发完成,并于2024-08-27向国家知识产权局提交的专利申请。
本一种基于大语言模型及向量库构建知识图谱的方法在说明书摘要公布了:本申请公开了一种基于大语言模型及向量库构建知识图谱的方法,涉及知识图谱技术领域,包括:对采集的自然语言文本,利用预训练的RoBERTa模型进行分词、词性标注和语义解析处理,得到自然语言文本的语义表示向量;通过Seq2Seq框架及注意力机制,获取语义表示向量与对应的命名实体之间的关联,通过得到的关联获取命名实体;构建知识图谱;构建的知识图谱与预设领域的关系数据库进行融合,生成融合知识图谱;利用依存句法分析获取出命名实体及对应的属性,获取命名实体的实体关系,构建融合知识图谱的命名实体、属性和实体关系的结构化三元组。针对现有技术中实体链接难度大的问题,本申请将知识图谱转化为低维稠密向量表示,并构建倒排索引库等,降低难度。
本发明授权一种基于大语言模型及向量库构建知识图谱的方法在权利要求书中公布了:1.一种基于大语言模型及向量库构建知识图谱的方法,包括:步骤一、对采集的自然语言文本,利用预训练的RoBERTa模型进行分词、词性标注和语义解析处理,得到自然语言文本的语义表示向量;将语义表示向量输入BiLSTM-Attention-CRF网络结构的Seq2Seq框架中,获取命名实体;步骤二、利用步骤一识别出的命名实体,构建初始知识图谱:将识别的命名实体作为知识图谱的实体节点;利用预训练的句法依存分析模型,获取句法依存树数据;在句法依存树中,获取命名实体对之间的最短依存路径;基于获取的最短依存路径,构建关系模板;利用构建的关系模板,对命名实体对进行关系抽取,得到实体关系数据;将抽取得到的实体关系作为知识图谱的关系边,连接对应的头实体节点和尾实体节点,构建包含实体节点、属性和关系边的知识图谱数据;步骤三、将步骤二构建的知识图谱与预设领域的关系数据库进行融合,生成融合知识图谱;使用字符串匹配算法,获取知识图谱与关系数据库中属性相同的同名实体对;对每个同名实体对,计算对应属性的语义相似度;当语义相似度高于预设阈值时,将关系数据库中对应实体的属性添加至知识图谱中对应实体节点;当语义相似度低于预设阈值时,对知识图谱中对应实体节点进行重命名或添加区分标识;步骤四、对融合知识图谱进行结构化三元组表示:利用依存句法分析,获取出融合知识图谱中的命名实体、对应的属性以及命名实体间的实体关系数据;根据获取的命名实体、属性和实体关系数据,构建融合知识图谱的结构化三元组表示数据;还包括:步骤五,将知识图谱中的结构化三元组转化为低维稠密向量表示;步骤六、对知识图谱的低维向量表示构建基于相似度的索引:计算知识图谱的低维向量表示中两两向量之间的余弦相似度;利用Faiss相似度搜索库中的IndexIVFFlat算法,对顶点、属性和边的向量进行索引,构建基于余弦相似度的倒排索引;利用Faiss相似度搜索库中的IndexIVFFlat算法,对顶点、属性和边的向量进行索引,构建基于余弦相似度的倒排索引,包括:采用K-means聚类算法,对索引中的所有向量进行聚类,得到将向量空间划分为K个Voronoi单元,每个单元对应一个聚类中心;对索引中的每个向量,计算其与所有聚类中心的距离,将向量分配到距离最近的聚类中心所在的Voronoi单元;对每个Voronoi单元,建立一个Flat索引,Flat索引中包含单元内的所有向量;在检索时,对给定的查询向量,通过Flat索引计算其与单元内每个向量的相似度;步骤七、对步骤六得到的倒排索引数据进行优化和压缩;步骤八、对步骤七压缩后的子索引进行分布式存储和热度管理。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京长河数智科技有限责任公司;长河信息股份有限公司,其通讯地址为:100071 北京市丰台区汽车博物馆西路8号院3号楼7层705;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。