首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种电力行业科研知识抽取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:国网江苏省电力有限公司南通供电分公司

摘要:本发明公开了一种电力行业科研知识抽取方法及系统,该方法包括以下步骤:S1收集电力科研文献信息,并对收集到的文献信息进行预处理;S2构建电力科研领域关键词词典,通过机器标注的方式得到命名实体识别标注的语料库,从而得到训练集;S3采用改进的BiLSTM‑CNN‑CRF网络对训练集进行训练,完成电力科研知识的关键词抽取;S4将所述预测输出层得到的电力科研知识关键词与电力科研文献信息一起存入到图数据库Neo4j中。本发明将预处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,采用的字符嵌入向量计算方法为将电力行业中的每个字符向量化,比直接使用相关模型进行特征提取进而得到相关的字符嵌入向量更加齐整,也即减少了很多冗余无效数据信息,从而提高抽取的准确率也相应的提高了抽取速度。

主权项:1.一种电力行业科研知识抽取方法,其特征在于,该方法包括以下步骤:S1收集电力科研文献信息,并对收集到的文献信息进行预处理;S2构建电力科研领域关键词词典,通过机器标注的方式得到命名实体识别标注的语料库,从而得到训练集;S3采用改进的BiLSTM-CNN-CRF网络对训练集进行训练,完成电力科研知识的关键词抽取,所述改进的BiLSTM-CNN-CRF网络包括输入特征层、特征提取层和预测输出层,所述特征提取层包含记忆网络层、多窗口门控网络层;输入的字符嵌入向量依次通过记忆网络层、多窗口门控网络层,该过程可以更好地捕捉输入序列中的关联信息;S4将所述预测输出层得到的电力科研知识关键词与电力科研文献信息一起存入到图数据库Neo4j中;其中,所述输入特征层包括嵌入层,所述处理后的电力科研文献信息经过所述嵌入层后转换为字符嵌入向量,具体包括:S21采集训练集中的每个词,并为词中的每个字符分配一个唯一的编号;S22将每个字符转换为对应的编号,并将其作为输入传递给所述嵌入层;S23所述嵌入层将对应的编号转换为高维的向量表示,其中,每个字符对应一个字符嵌入向量;所述预测输出层包括一个全连接层和一个CRF特征提取层,全连接层用于将每个字符的向量维度由不同门控窗口的输出拼接向量转变为最后输出的维度,若字符的标签共有num_class种,则经过全连接后字符的向量维度为num_class;经过全连接层后的向量会经过CRF层,CRF特征提取层用于计算标签之间的依赖关系,确保生成的标签序列是合理的,在使用CRF的情况下,模型输出的标签序列是在整个序列上最有可能的标签序列,这有助于解决序列标注中的局部一致性问题,确保输出的标签序列在整个序列上是一致的;在CRF层中,每个标签被看作是模型的一个状态,而输入序列中的每个时间步则被看作是模型的观察值,CRF层通过学习转移概率和发射概率来建模标签序列的整体结构;具体的,包括以下步骤:1根据带有关键词的文本序列计算文本序列中标注标签之间的转移概率;在电力文本的训练集中将电力文本进行BIEO标注,B表示电力关键词的开头,I表示电力关键词的中间,E表示电力关键词的结尾,O为其余字符,对于一个带有关键词标签的文本序列,文本序列中每个字符对应的标注标签到每个字符对应的标注标签的转移次数仅发生在相邻的两个字符之间,并且转移次数仅计算相邻的两个字符中从第一个字符到第二个字符的转移次数,进而根据标注后的文本序列计算对应的转移矩阵,然后用拉普拉斯平滑常数对所述转移矩阵去平滑观测值,得到更新后的转移矩阵;采用的所述去平滑观测原理为:0位是文本序列中的第一关键词的起始字与其他关键词的延续字和结尾字相邻,或者非关键词的字符与第一关键词的延续字符或者结尾字符相邻,并且非关键词的字符不在第一关键词的延续字前面;或者非关键词的字与其他关键词标签的延续字相邻,并且非关键词的字不在其他关键词标签的延续字前面;不符合0位的其他位置均为1,得到中间矩阵,将之前的转移矩阵与中间矩阵相加即得到更新后的转移矩阵;将更新后的转移矩阵归一化后,进而计算转移概率,也即得到从一个标签转移到另一个标签的概率A;2计算在给定标签的情况下,观察到某个特定的输入的概率,即发射概率B;3对于给定的输入带有关键词的文本序列X和相应的标签序列Y,模型的目标是最大化条件概率PY|X,通过该概率确定标签与序列之间的合理性; 其中,ScoreX,Y是模型给定输入序列X和标签序列Y的得分,在本发明中考虑给定输入文本序列中同一个字符下当前标签与下一个标签对应的转移概率,以及该字符下当前标签的发射概率,n为当前输入文本序列的长度,Y’表示可能的标签序列,即所有的预测结果。

全文数据:

权利要求:

百度查询: 国网江苏省电力有限公司南通供电分公司 一种电力行业科研知识抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。