Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于预训练模型的特种设备中文命名实体识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

摘要:一种基于预训练模型的特种设备中文命名实体识别方法,包括以下步骤:1按照中文命名实体标注策略BIEOS对中文命名实体数据集进行标注,将实体类别分为四种类别;2基于BERT预训练模型将中文句子转换为字向量表示;3将字向量表示输入到biLSTM模型中,学习字向量序列双向编码,提取句子特征;4采用CRF条件随机场学习上下文的标签概率,得到了每个汉字的所有可能的标签序列;5最后输出汉字序列对应的实体类别。本发明通过无监督的方式对无标签语料中进行训练,能够有效解决小数据集、样本特征信息不足情况下中文命名实体提取的问题,用于构建特种设备领域的知识图谱。

主权项:1.一种基于预训练模型的特种设备中文命名实体识别方法,其特征在于,包括以下步骤:1中文命名实体数据集标注:1.1数据获取:抽取特种设备领域相关的文本数据,对数据进行清洗和去重,作为中文实体识别的数据集,将数据集划分为训练集和测试集;1.2中文命名实体标注策略:定义中文命名实体标注策略BIEOS,标注类别包括:B表示该字符是实体的开始位置;I表示该字符是实体的中间位置;E表示该字符实体的结束位置;O表示该字符实体的不属于任何实体类型;S表示该字符单独构成一个实体;x表示该字符所在实体的类型;1.3实体类别标注策略:定义特种设备领域命名实体的类型,包括C、P、F和A四类,分别表示特种设备的组成、参数、故障和事故;1.3训练数据集标注:根据实体标注策略和实体类型对实体进行标注,对数据集中的训练集进行标注;2基于BERT预训练模型的字向量表示:BERT预训练模型通过联合调节所有层中的双向Transformer来预训练深度双向表示,利用BERT的BertModel类构造BERT结构,然后将输入的特种设备中文汉字序列输入到BERT特征表示层中,对文本中的每个汉字进行编码得到中文汉字的向量表示:x=x1,x2,x3…xn13biLSTM上下文编码:3.1biLSTM的输入:biLSTM接收来自BERT层输出的中文汉字序列的向量表示x,输入到两个biLSTM单元中,并初始化隐藏状态h0;3.2基于biLSTM的字向量序列双向编码:biLSTM隐藏层输出表示公式如下:it=σWixxt+Wihht-1+bi2ft=σWfxxt+Wfhht-1+bf3ot=σWoxxt+Wohht-1+bo4 其中,W、b分别表示连接两层的权重矩阵和偏置向量,σ是sigmoid激活函数,为点乘运算,xt为t时刻的输入,ct为t时刻的细胞状态,为t时刻的临时细胞状态,ht表示t时刻的隐藏层状态,ft、it和ot表示t时刻的遗忘门、记忆门和输出门;对输入序列分别采用顺序和逆序的方式计算得到两种不同的隐藏层表示h前和h后,然后通过向量拼接的方式得到最终的隐藏层表示,公式如下:hi=[hi前+hi后]8其中hi前,hi后分别表示第i个字符对应的前、后向隐藏层表示,[]表示相量拼接,hi表示最终的隐藏层表示;将得到的隐藏层表示经过一个线性层映射为一个维度为输出标签数量的向量,然后通过Sofimax函数进行归一化处理,得到每种标签的概率P,计算公式如下:P=logSoftmaxhi93.3最小化损失函数:采用NLLLoss损失函数计算每种标签的概率值与目标结果的差距,NLLLoss函数接收两个张量,第一个张量是标签的概率值,第二个是目标结果,根据目标结果的取值找出标签的概率值中对应位置的元素,求和取平均值,通过随机梯度下降法最小化损失函数值,公式如下:Loss二NLLLossoutput,target10其中output是标签的概率值,target是目标结果;4基于CRF条件随机场解码标签序列:4.1学习状态矩阵和转移矩阵:采用CRF条件随机场学习上下文的标签信息,CRF算法中涉及到状态矩阵和转移矩阵;在条件随机场中,对于一个输入序列x=x1,x2,x3…xn,序列中的第i个字对应k个特定标签的概率构成一个状态矩阵,是当前字符对应于每个标签的概率分数,表示为: 其中,分数越高就代表该字对应于该标签的概率越高,n表示序列长度,i表示序列中第i个字符,yi则表示该字符对应的标签,k表示标签数量,表示一个维度为n×k的矩阵;在条件随机场中,对于特定的k个标签,从标签i转移到标签i+1的转移得分构成一个转移矩阵,用来表示标签与标签之间的转移关系,表示为: 其中,分数越高代表标签yi转移到下一个标签yi+1的概率越高;4.2计算序列标签最大概率:根据状态矩阵和转移矩阵,对于一个输入序列x=x1,x2,x3…xn,其对应的标签序列为y=y1,y2,y3…yn的评分公式为: 用Softmax函数归一化得到y序列标签的概率,公式如下: 其中,代表序列真实路径标记值,Yx表示所有可能的路径标记的集合,e是指数函数;4.3最小化损失函数:在训练过程中,采用以下损失函数最大化正确标签的似然概率,通过随机梯度下降法最小化损失函数的值,计算公式为: 4.4基于维特比算法解码最终标签序列:在中文命名实体识别模型训练完成之后,得到了每个汉字的所有可能的标签序列;然后,采用维特比算法解码该标签序列,即计算标签序列中的最优序列,该算法每次记录到当前时刻每个观察标签的最优序列,用动态规划的方法减少不必要的重复计算,到结束时,从最后一个时刻的最优值回溯到开始位置,回溯完成后,这个从开始到结束的路径就是最优的;对于一组未知标签的序列x,采用维特比算法获得所有标签序列上预测总得分最高的标签序列,计算公式如下: 最后,输出汉字序列x所对应的最终实体标签序列y*。

全文数据:

权利要求:

百度查询: 浙江工业大学 一种基于预训练模型的特种设备中文命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。