买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:太原理工大学
摘要:本发明属于计算机领域自然语言处理,特别涉及一种面向信息安全领域的命名实体识别方法。包括以下步骤。S100~利用微调后的BERT中文模型对安全领域文本数据的三个维度进行表征,最终得到模型的输入向量。S200~采用BERT模型提取信息安全领域文本的特征编码表示。在多层Transformer的Encoder单元堆叠的基础上,采用多头注意力机制学习不同的子空间相关特征的表达,之后通过残差连接和归一化以及前馈神经网络,获取信息安全领域文本的特征编码表示,序列中每个字对应的字向量,都包含当前句子中其他字的特征。S300~采用条件随机场来提供额外的标签转移特征,获得标签序列之间的转移分数,选取转移分数最高的序列结果对应的实体类别。
主权项:1.一种面向信息安全领域的命名实体识别方法,其特征在于:包括以下步骤,S100~利用微调后的BERT中文模型对安全领域文本数据的三个维度进行表征,分别为:字向量,即每个字本身的向量表示;位置向量,将字的位置信息编码成特征向量;分段向量,用于区分两个句子的向量表示,通过分隔符【SEP】标记,此外模型在文本前插入【CLS】标记,将该标记对应的输出向量作为整体文本的语义表示,用于进行BERT模型的下游任务,最终得到模型的输入向量;S200~采用BERT模型提取信息安全领域文本的特征编码表示,在多层Transformer的Encoder单元堆叠的基础上,采用多头注意力机制学习不同的子空间相关特征的表达,之后通过残差连接和归一化以及前馈神经网络,获取信息安全领域文本的特征编码表示,序列中每个字对应的字向量,都包含当前句子中其他字的特征;步骤S200包括采取以下方法,使用多层Transformer的Encoder单元对输入向量进行编码;S201~首先,经过对每个字的向量表示之后,形成一句话的输入向量即,,加入字的位置信息PE得到,即文本嵌入表示,其中pos表示字的位置,i表示单词的维度: ; ; ;S202~采用多头注意力机制,初始化三个权重矩阵,,对做线性映射,得到Q,K,V三个维度为的矩阵,Q表示与当前字相匹配的单词属性,K表示字本身的属性,V表示字本身包含的信息: ;S203~先求出注意力矩阵,表示文本中单个字与句子其他字的关系,之后用score归一化方法,即利用将乘积结果恢复为正态分布,注意力机制公式如下: ;S204~之后利用残差连接避免深度网络的梯度消失问题: ;S205~进行归一化处理为标准正态分布,用来加速收敛: ;S206~之后加入两层线性映射并使用激活函数激活,得到输出向量Y: ;S300~采用条件随机场来提供额外的标签转移特征,获得标签序列之间的转移分数,选取转移分数最高的序列结果对应的实体类别。
全文数据:
权利要求:
百度查询: 太原理工大学 一种面向信息安全领域的命名实体识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。