Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西安理工大学

摘要:本发明公开了基于词汇增强和预训练的BcBERT‑SW‑BiLSTM‑CRF模型的实现方法。基于词汇增强的模型SW‑BiLSTM‑CRF,并以构建的语料库作为训练数据进行训练,得到的模型作为数据矫正的依据,迭代语料库。在此基础上,使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移,来一定程度地减弱由于数据规模小造成的识别误差。使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行深度预训练,得到BcBERTBuildingCodeBERT,从而将通用领域和建筑领域其他规范文本的知识迁移至SW‑BiLSTM‑CRF模型。以有效提升地铁设计规范命名实体识别任务的性能。

主权项:1.基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法,其特征在于,首先经过动态引入的SW-BiLSTM-CRF模型;然后使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现BcBERT,最终实现BcBERT-SW-BiLSTM-CRF的模型,所述SW-BiLSTM-CRF模型,主要分为输入层、查找层、特征提取层、数据投射层和输出层五个模块,所述输入层的字需要提前做如下处理:以BIO标注体系标注的文本文档作为框架的输入,并进行字和标签的统计,以词频进行编号,分别得到字到编号、编号到字、标签到编号和编号到标签四个字典;输入层实际的输入是根据字到编号的这个字典,得到的句子编号序列,其中还需要用特殊字符0来补齐句子,使每条句子长度一致,词汇增强的设计在这一层需要得到词的边界信息和词信息的编号序列,词的边界信息借助四个离散的编号来实现,编号分别代表不属于实体,实体的始末,以及实体的中间位置,词信息的处理和字处理的方式相同,所述数据投射层工作是将特征提取层得到的特征向量进行维度投射,特征向量是根据BiLSTM结构配置的一个高维度向量,这一层通过一个全连接层将该高维度向量投射到标签维度上,向量大小为[批大小batchsize*序列长度sequencelength*标签数量labelnumber],这样就得到了每个标签的得分情况,所述输出层的主要工作是根据数据投射层得到的标签得分,选择分数最高的标签作为最终预测的标签,但是仅仅依靠得分进行预测会存在标签转移错误的问题,因此通常会在这一层使用CRF算法来进一步约束标签的转移关系,修正预测结果,CRF算法以路径为单位,考虑路径的概率,将序列标注看作1个kn的分类问题,k是类别个数,n是句子长度,实际训练过程中采用最大似然估计方法来寻找最优的标注序列,所述BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为:当观测序列,即输入序列为X=x0,x1,…,xn,状态序列,即输出标签序列为Y=y0,y1,…,yn的概率为: zx=∑yexp∑kλk∑itkyi-1,yi,x,i+∑lμl∑islyi,x,i上述公式实现了从特征到概率的转化,tkyi-1,yi,x,i是定义在边上的特征函数,代表标签转移特征,slyi,x,i是定义在节点上的特征函数,代表状态特征,特征函数的取值为1或0,λk和μl分别是两个特征对应的权重,zx是规范化因子,对y的所有可能取值求和,训练过程中,采用最大似然估计得到损失函数:loss=-logPY=y|x,使用梯度下降算法进行学习,最终选取得分最高的Y作为X的标注序列,BcBERT-SW-BiLSTM-CRF模型的具体实现的过程:步骤1:选择BIO的标注方式;步骤2:提出了基于词汇增强的SW-BiLSTM-CRF模型,向BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息;步骤3:使用BERT预训练,将已有的部分土木建筑信息文本语料输入构造BERT输入特征;使用BERT预训练,将已有的部分土木建筑信息文本语料输入构造BERT输入特征,BERT输入包含三个嵌入特征,分别是字嵌入、上下句嵌入和位置嵌入,字嵌入构造采用WordPiece过程,将输入的词拆开,拆词过程采用双字节编码实现,具体地,在包含英文单词的中文文本中,将中文部分分割为单字,英文单词分割为子词,分割好的块是BERT语言模型训练时遮盖的最小单位,同时,将拼接的两个句子使用特殊符号[SEP]进行区分,第二个句子末尾也会加上该符号,[CLS]是模型表示开始的特殊符号,表示句首位置;上下句嵌入是针对句子关系判断类任务的输入构造,EA部分是必须的,EB部分是可选的,0表示第一句话,1表示第二句话,监督信息在[CLS]标志中体现,如果后者为空则变成单句分类任务,位置嵌入是字在句子中的绝对位置信息,且BERT支持的序列长度上限为512,最后,将这三层嵌入编码相加作为输入表征向量,持久化到TFRecord格式的二进制文件中;步骤4:使用BERT作为文本编码器,在通用领域预训练模型基础上,继续进行建筑语料文本深度预训练,构建基于BcBERT-SW-BiLSTM-CRF的命名实体识别模型;使用BERT作为文本编码器,在通用领域预训练模型基础上,继续进行建筑语料文本深度预训练,构建基于BcBERT-SW-BiLSTM-CRF的命名实体识别模型,模型主要由预训练文本表征层和完成命名实体识别任务的特征提取层两个模块构成,BcBERT是进行了建筑语料文本深度训练的领域预训练模型,融合了与地铁设计规范相关的无监督建筑语料文本的相关知识,使预训练语言模型具备一定的领域适配性,更适合下游地铁设计规范的命名实体识别任务。

全文数据:

权利要求:

百度查询: 西安理工大学 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。