恭喜国网信通亿力科技有限责任公司朱艺媛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜国网信通亿力科技有限责任公司申请的专利基于文本向量化的电力系统向量知识库构建方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118964695B 。
龙图腾网通过国家知识产权局官网在2025-01-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411466691.4,技术领域涉及:G06F16/9032;该发明授权基于文本向量化的电力系统向量知识库构建方法是由朱艺媛;林笔星;苏志勇;郑炜;陈伟;何秋芸;巫升俊设计研发完成,并于2024-10-21向国家知识产权局提交的专利申请。
本基于文本向量化的电力系统向量知识库构建方法在说明书摘要公布了:本发明涉及一种基于文本向量化的电力系统向量知识库构建方法,包括以下步骤:步骤S1:获取电力系统向量知识库构建相关的数据原始文本和元数据,并预处理;步骤S2:通过稀疏向量和稠密向量组合的方法,进行文本向量化;步骤S3:将原始文本和元数据存储在关系数据库中,向量数据存储在NoSQL向量数据库中,并构建关联关系;步骤S4:用户输入查询时,对查询向量进行优化处理,改进查询算法和优化查询流程,引入多阶段筛选机制,获取初步检索结果;步骤S5:基于增强召回的策略,使用领域特定的信息和规则对初步检索结果进行重新排序,得到最终的检索结果。本发明能够有效提高电力系统知识库的构建效率和使用效果。
本发明授权基于文本向量化的电力系统向量知识库构建方法在权利要求书中公布了:1.一种基于文本向量化的电力系统向量知识库构建方法,其特征在于,包括以下步骤:步骤S1:获取电力系统向量知识库构建相关的数据原始文本和元数据,并预处理;步骤S2:通过稀疏向量和稠密向量组合的方法,进行文本向量化;步骤S2具体为:根据文本预处理得到的Token序列,计算TF-IDF值,生成稀疏向量表示; ;其中,是第u篇文档中第v个词的TF-IDF值;是第u篇文档中第v个词的词频,是第v个词的逆文档频率,定义为: ;其中,N是文档总数,是包含词v的文档数;整个文本的TF-IDF向量表示为TF-IDFx: ;其中文档x中第i个词的TF-IDF权重;使用预训练的BERT模型对文本进行嵌入,生成稠密向量表示,,是预训练的BERT模型的输出,L为总层数;每个Token嵌入表示为: ;其中,,,分别为Token序列的词嵌入、句段嵌入和位置嵌入;将TF-IDF向量和BERT嵌入向量进行组合,形成最终的文本向量表示: ;所述预训练的BERT模型包括自注意力机制和前馈神经网络,具体如下:所述BERT模型的自注意力机制: ;其中,Q为查询矩阵、K为键矩阵,V为值矩阵;dk为键和值矩阵的维度;上标T表示转置;softmax为激活函数;通过多头注意力同时关注不同信息,再进行组合: ; ;其中,表示第个头;、、分别是查询矩阵、键矩阵和值矩阵第个头对应的权重矩阵;为输出的线性变换权重矩阵;为多头注意力的输出;所述前馈神经网络按照元素对每个位置执行操作: ;其中,W1为第一个线性变换的权重矩阵,b1为第一个线性变换的偏置向量;W2为第二个线性变换的权重矩阵;b2为第二个线性变换的偏置向量;max(,)为ReLU激活函数;层规范化和残差连接: ;其中,为第层的输出,LayerNorm为层规范化操作;是在第l层进行多头注意力机制和残差连接后,通过层规范化处理得到的中间表示;为前馈神经网络的输出;最终输出: ;其中,L为总层数;为最终输出;步骤S3:将原始文本和元数据存储在关系数据库中,向量数据存储在NoSQL向量数据库中,并构建关联关系;步骤S4:用户输入查询时,对查询向量进行优化处理,改进查询算法和优化查询流程,引入多阶段筛选机制,获取初步检索结果;所述引入多阶段筛选机制,具体如下:首先使用近似最近邻算法,进行快速筛选;对于给定的查询向量q,定义一组哈希函数: ;其中,是一个随机向量,是随机偏移量,w是桶宽度;组合成一个包含个哈希函数的哈希表: ;将查询向量映射到哈希表中得到哈希桶ID,然后从该哈希桶中提取候选向量集合;从粗筛阶段得到的候选向量集合中使用精确最近邻算法进行精细化筛选,使用基于索引结构的数据结构,包括KD树、球树,或者直接计算欧氏距离;给定查询向量q和候选向量集合{v1,v2,…,vm},计算欧氏距离: ;其中,qb是查询向量q在第b个维度上的元素;vab是候选向量va在第b个维度上的元素;d为查询向量的维数;m为候选向量数量;选择距离最小的前K个候选向量作为最终结果: ;所述对查询向量进行优化处理,具体如下:首先,进行查询预处理,包括清洗、分词和去停用词,然后生成查询向量,最后计算查询的TF-IDF向量和BERT向量,并组合查询向量;步骤S5:基于增强召回的策略,使用领域特定的信息和规则对初步检索结果进行重新排序,得到最终的检索结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人国网信通亿力科技有限责任公司,其通讯地址为:361008 福建省厦门市软件园二期观日路36号402室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。