首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于NLP的行业数据分析方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:深圳市中壬银兴信息技术有限公司

摘要:本申请公开了一种基于NLP的行业数据分析方法,涉及数据处理技术领域,包括:预训练语言模型,并进行微调,得到领域语言模型;对用户输入的查询意图,获取中心词;对中心词进行向量化处理,得到查询向量;采用注意力机制,得到用户查询向量的行业数据检索结果;构建领域知识图谱;采用图嵌入模型,将实体和关系映射到低维向量空间;采用注意力机制获得与查询向量对应的实体和关系;根据查询向量,在领域知识图谱中进行关系路径推理,得到查询向量的关系路径;通过语义匹配计算查询向量与得到的实体、关系和关系路径之间的相关性,得到知识增强的检索结果。针对现有技术中行业数据分析效率低的问题,本申请提高了行业数据分析的效率。

主权项:1.一种基于NLP的行业数据分析方法,包括:步骤一,预训练语言模型,并采用行业模型库中的标注数据对预训练的语言模型进行微调,得到领域语言模型;步骤二,将输入的行业数据的元数据,输入到步骤一得到的领域语言模型中,提取元数据的语义特征,得到元数据的语义表示向量,元数据包含表名和字段名;步骤三,对用户输入的查询意图,采用利用命名实体识别算法获取用户查询意图的中心词;采用步骤一得到的领域语言模型,对中心词进行向量化处理,得到查询向量;步骤四,采用注意力机制,通过计算查询向量与步骤二中行业数据的元数据的语义表示向量之间的相似度,得到匹配分数;根据匹配分数对候选的元数据的语义表示向量进行排序,得到用户查询向量的行业数据检索结果;步骤五,利用行业模型库中的实体和关系,构建领域知识图谱;步骤六,将步骤五构建的领域知识图谱,采用图嵌入模型,将实体和关系映射到低维向量空间,获得实体和关系的分布式向量表示;步骤七,将步骤三得到的查询向量,采用注意力机制与步骤六得到的实体和关系的分布式向量表示进行语义匹配,获得与查询向量对应的实体和关系;根据查询向量,在领域知识图谱中进行关系路径推理,得到查询向量的关系路径;步骤八,通过语义匹配计算查询向量与步骤七得到的实体、关系和关系路径之间的相关性,结合行业数据检索结果,得到知识增强的检索结果,作为最终的行业数据分析结果;其中,行业模型库表示针对预设行业或领域构建的包含预训练模型、标注数据和知识库的集合;预训练模型包含BERT或GPT语言模型;标注数据表示带有标签的数据集,用于训练语言模型;知识库表示行业知识库用于构建领域知识图谱;步骤八中,获取最终的行业数据分析结果,包含:采用余弦相似度度量方法,计算语义匹配得到的数据表或字段与查询向量之间的语义相似度sim_data;采用余弦相似度度量方法,计算关系路径与查询向量之间的语义相似度sim_path;根据语义相似度sim_data和sim_path,计算加权相关性score:score=w_data*sim_data+w_path*sim_path其中,w_data和w_path为权重系数;根据计算得到的相关性score,对原有的行业数据检索结果进行排序;获取关系路径连接的实体节点对应的数据表或字段,将获取的数据表或字段作为附加检索结果;将附加检索结果与排序后的行业数据检索结果进行合并;根据计算得到的相关性score,对合并后的结果进行排序,作为最终的知识增强的行业数据分析结果返回给用户。

全文数据:

权利要求:

百度查询: 深圳市中壬银兴信息技术有限公司 一种基于NLP的行业数据分析方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。