首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

数据分析系统、数据分析方法、介质及电子设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海勘测设计研究院有限公司

摘要:本申请提供一种数据分析系统、数据分析方法、介质及电子设备。包括:源数据存储模块,用于存储能源信息数据,外部数据获取模块,用于获取所述数据分析系统外部的能源信息数据,知识图谱生成模块,用于根据所述知识图谱生成模块的传入数据生成基于所述传入数据的知识图谱,统一检索模块,用于基于中文分词器和索引结构对输入文本进行处理,以获取检索数据,情报分析模块,用于对输入时间进行处理,以获取情报数据和基于所述情报数据的知识图谱,统计分析模块,用于对双碳项目数据进行处理,以获取所述双碳项目数据的统计分析结果,简报生成模块,用于对选定的文本数据进行处理,以生成简报。所述数据分析系统具备更佳的数据分析能力。

主权项:1.一种数据分析系统,其特征在于,所述数据分析系统包括:源数据存储模块,用于存储能源信息数据,所述能源信息数据包括关于可再生能源的政策数据和关于可再生能源的新闻数据;外部数据获取模块,用于获取所述数据分析系统外部的能源信息数据;知识图谱生成模块,用于根据所述知识图谱生成模块的传入数据生成基于所述传入数据的知识图谱,所述知识图谱生成模块包括:知识抽取单元、知识融合单元和知识推理单元,其中所述知识抽取单元可以包括实体识别、实体抽取过程,实体识别、实体抽取指从自由文本中进行目标类型的实体候选文本的识别,经过文本预处理之后,得到了文本中分词和词性标注的结果;统一检索模块,用于基于中文分词器和索引结构对输入文本进行处理,以获取检索数据,所述数据分析系统的所有使用用户均具有所述统一检索模块的使用权限,所述统一检索模块还包括联想输入获取单元和输入文本纠错单元,所述联想输入获取单元用于对原始输入文本进行处理,以获取所述输入文本,所述输入文本可以为所述原始输入文本的联想词;情报分析模块,用于对输入时间进行处理,以获取情报数据和基于所述情报数据的知识图谱,所述情报数据包括:所述输入时间范围内的所述政策数据和或所述输入时间范围内的所述新闻数据;所述情报分析模块包括筛选单元、显示设置单元、知识推荐数据生成单元、情感分析单元,所述筛选单元用于基于筛选区域、筛选领域或筛选时间段对所述情报数据进行筛选处理,以获取筛选后的情报数据,所述显示设置单元用于设置所述情报数据的发布时间、标签、权重、关键词的个性化显示,所述知识推荐数据生成单元用于基于所述情报数据生成所述情报数据的知识推荐数据,所述情感分析单元用于基于训练完毕的情感分析模型对所述情报数据进行情感分析,以获取所述情报数据的情感倾向,所述训练完毕的情感分析模型包括一个多层双向Transformer编码器,所述训练完毕的情感分析模型包括base网络结构和large网络结构,所述base网络结构的堆叠层数为12,隐藏向量维数为768,自我注意力头部数量为12,全连接网络隐藏层维数为3072,所述large网络结构的堆叠层数为24,隐藏向量维数为1024,自我注意力头部数量为16,全连接网络隐藏层维数为4096;统计分析模块,用于对双碳项目数据进行处理,以获取所述双碳项目数据的统计分析结果;简报生成模块,用于对选定的文本数据进行处理,以生成简报;所述数据分析系统还包括任务调度模块和多模式匹配采集模块,所述任务调度模块用于基于任务调度框架实时获取所述外部的能源信息数据,所述多模式匹配采集模块用于基于多种采集方式匹配采集所述外部的能源信息数据,所述采集方式为基于标记语言解析器的解析结构采集的方式、基于浏览器采集的方式或基于应用程序接口采集的方式,其中,基于标记语言解析器的解析结构采集的方式可以指的是基于jsoup解析结构采集的方式,基于浏览器采集的方式可以指的是基于selenium浏览器采集的方式,并且在基于多种采集模式匹配采集所述外部的能源信息数据过程中,通过根据cookie缓存、url参数动态配置化、多线程并发采集进一步保证在数据采集过程中的可靠性;命名实体的识别方法还包括:通过训练完毕的条件随机场模型对输入文本中的人名、简单地名、简单组织名以及复合命名实体中的人名、地名和组织名进行识别,以获取第一识别结果,所述第一识别结果可以指的是根据前向动态规划算法和后向动态规划算法计算出的概率最大的标注词串,所述标注词串可以指的是对输入文本中的人名、简单地名、简单组织名以及复合命名实体中的人名、地名和组织名的标注组合;基于所述第一识别结果,通过训练完毕的高层条件随机场模型对所述输入文本中的复合地名和复合组织名进行识别,以获取第二识别结果,所述第二识别结果可以指的是通过矩阵计算的方法求得标记序列的条件概率,并根据前向动态规划算法和后向动态规划算法计算出的概率最大的标注序列,所述高层的条件随机场模型与所述条件随机场模型的区别在于,所述高层的条件随机场模型用于识别复合地名和复合组织名,所述条件随机场模型用于识别人名、简单地名和简单组织名;对所述第一识别结果和所述第二识别结果进行规则修正,以获取修正后的第一识别结果和修正后的第二识别结果,将所述修正后的第一识别结果和所述修正后的第二识别结果转化为xml格式的输出标注文档。

全文数据:

权利要求:

百度查询: 上海勘测设计研究院有限公司 数据分析系统、数据分析方法、介质及电子设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。