基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

导航：龙图腾网> 最新专利技术> 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：西安理工大学

摘要：本发明公开了基于词汇增强和预训练的BcBERT‑SW‑BiLSTM‑CRF模型的实现方法。基于词汇增强的模型SW‑BiLSTM‑CRF，并以构建的语料库作为训练数据进行训练，得到的模型作为数据矫正的依据，迭代语料库。在此基础上，使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移，来一定程度地减弱由于数据规模小造成的识别误差。使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行深度预训练，得到BcBERTBuildingCodeBERT，从而将通用领域和建筑领域其他规范文本的知识迁移至SW‑BiLSTM‑CRF模型。以有效提升地铁设计规范命名实体识别任务的性能。

主权项：1.基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法，其特征在于，首先经过动态引入的SW-BiLSTM-CRF模型；然后使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现BcBERT,最终实现BcBERT-SW-BiLSTM-CRF的模型，所述SW-BiLSTM-CRF模型，主要分为输入层、查找层、特征提取层、数据投射层和输出层五个模块，所述输入层的字需要提前做如下处理：以BIO标注体系标注的文本文档作为框架的输入，并进行字和标签的统计，以词频进行编号，分别得到字到编号、编号到字、标签到编号和编号到标签四个字典；输入层实际的输入是根据字到编号的这个字典，得到的句子编号序列，其中还需要用特殊字符0来补齐句子，使每条句子长度一致，词汇增强的设计在这一层需要得到词的边界信息和词信息的编号序列，词的边界信息借助四个离散的编号来实现，编号分别代表不属于实体，实体的始末，以及实体的中间位置，词信息的处理和字处理的方式相同，所述数据投射层工作是将特征提取层得到的特征向量进行维度投射，特征向量是根据BiLSTM结构配置的一个高维度向量，这一层通过一个全连接层将该高维度向量投射到标签维度上，向量大小为[批大小batchsize*序列长度sequencelength*标签数量labelnumber]，这样就得到了每个标签的得分情况，所述输出层的主要工作是根据数据投射层得到的标签得分，选择分数最高的标签作为最终预测的标签，但是仅仅依靠得分进行预测会存在标签转移错误的问题，因此通常会在这一层使用CRF算法来进一步约束标签的转移关系，修正预测结果，CRF算法以路径为单位，考虑路径的概率，将序列标注看作1个kn的分类问题，k是类别个数，n是句子长度，实际训练过程中采用最大似然估计方法来寻找最优的标注序列，所述BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为：当观测序列，即输入序列为X＝x0,x1,…,xn，状态序列，即输出标签序列为Y＝y0,y1,…,yn的概率为： zx＝∑yexp∑kλk∑itkyi-1，yi，x，i+∑lμl∑islyi，x，i上述公式实现了从特征到概率的转化，tkyi-1,yi,x,i是定义在边上的特征函数，代表标签转移特征，slyi,x,i是定义在节点上的特征函数，代表状态特征，特征函数的取值为1或0，λk和μl分别是两个特征对应的权重，zx是规范化因子，对y的所有可能取值求和，训练过程中，采用最大似然估计得到损失函数：loss＝-logPY＝y|x，使用梯度下降算法进行学习，最终选取得分最高的Y作为X的标注序列，BcBERT-SW-BiLSTM-CRF模型的具体实现的过程：步骤1：选择BIO的标注方式；步骤2：提出了基于词汇增强的SW-BiLSTM-CRF模型，向BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息；步骤3：使用BERT预训练，将已有的部分土木建筑信息文本语料输入构造BERT输入特征；使用BERT预训练，将已有的部分土木建筑信息文本语料输入构造BERT输入特征，BERT输入包含三个嵌入特征，分别是字嵌入、上下句嵌入和位置嵌入，字嵌入构造采用WordPiece过程，将输入的词拆开，拆词过程采用双字节编码实现，具体地，在包含英文单词的中文文本中，将中文部分分割为单字，英文单词分割为子词，分割好的块是BERT语言模型训练时遮盖的最小单位，同时，将拼接的两个句子使用特殊符号[SEP]进行区分，第二个句子末尾也会加上该符号，[CLS]是模型表示开始的特殊符号，表示句首位置；上下句嵌入是针对句子关系判断类任务的输入构造，EA部分是必须的，EB部分是可选的，0表示第一句话，1表示第二句话，监督信息在[CLS]标志中体现，如果后者为空则变成单句分类任务，位置嵌入是字在句子中的绝对位置信息，且BERT支持的序列长度上限为512，最后，将这三层嵌入编码相加作为输入表征向量，持久化到TFRecord格式的二进制文件中；步骤4：使用BERT作为文本编码器，在通用领域预训练模型基础上，继续进行建筑语料文本深度预训练，构建基于BcBERT-SW-BiLSTM-CRF的命名实体识别模型；使用BERT作为文本编码器，在通用领域预训练模型基础上，继续进行建筑语料文本深度预训练，构建基于BcBERT-SW-BiLSTM-CRF的命名实体识别模型，模型主要由预训练文本表征层和完成命名实体识别任务的特征提取层两个模块构成，BcBERT是进行了建筑语料文本深度训练的领域预训练模型，融合了与地铁设计规范相关的无监督建筑语料文本的相关知识，使预训练语言模型具备一定的领域适配性，更适合下游地铁设计规范的命名实体识别任务。

全文数据：

权利要求：

百度查询：西安理工大学基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种木门加工灰尘清理装置

下一篇：基于高强柔性索环连接的混凝土圆形筒状结构与预制筒片

相关技术

一种木门加工灰尘清理装置

基于高强柔性索环连接的混凝土圆形筒状结构与预制筒片

一种变压器电磁温度流体多物理场间接耦合计算方法及系统

基于大语言模型的代码处理方法、装置、设备和介质

用于确定泡沫生产的参数的系统和方法

一种音频信号的处理方法、装置、系统和智能音箱设备

一种燃料舱搭载精度控制方法和燃料舱

设备健康预测方法和计算机可读存储介质

一种塑管熔接装置

一种基于蜣螂优化算法的智能车轨迹跟踪控制方法

具备适应不同体型患者的呼吸内科胸腔穿刺辅助装置

基于FPN的复杂环境典型树木高效智能识别方法及系统

训练相关技术

高尔夫训练器_扬州健力美健身器材有限公司_202323632322.1

综合训练器_扬州健力美健身器材有限公司_202420474577.5

脚踝康复训练装置_北京软体机器人科技股份有限公司_202411280882.1

一种训练垫_邹城高级职业技术学校_202323487538.3

一种模拟飞行训练设备及训练方法_中国民用航空飞行学院_202410209553.1

训练样本的生成方法、训练方法和信息评估方法、装置_北京百度网讯科技有限公司_202411124799.5

训练样本增广方法、模型训练方法、装置及设备_北京字跳网络技术有限公司_202410924316.3

一种航空救援训练场馆训练安全综合管理平台_中船海丰航空科技有限公司_202411008748.6

一种可调式人体平衡的悬吊训练装置及其悬吊训练方法_河南翔宇医疗设备股份有限公司_202411201883.2

便于脑卒中患者康复训练用的缺血适应训练臂带、设备_苏州高新区人民医院_202322934397.9

BcBERT-SW-BiLSTM-CRF相关技术

一种基于Fryze-电流分解和CNN-BiLSTM的非侵入式家电识别方法_广东电网有限责任公司广州供电局_202411154094.8

一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法_北京邮电大学_202210150583.0

基于CNN-BiLSTM-SE的广域光伏站点功率超短期预测方法和装置_浙江工业大学_202410947604.0

基于TCN-BiLSTM-WOA的强风下车辆过桥安全性评价方法_西华大学_202411252113.0

一种利用多目标时空图卷积神经网络GCN-BILSTM模型进行短期负载率实际预测的方法_湖北华中电力科技开发有限责任公司_202410936481.0

一种基于CRF模型的智能数据打标方法、设备及介质_深圳市华夏启能科技有限公司_202410749355.4

基于INFO优化的CNN-BiLSTM超短期光伏发电预测方法_西安理工大学_202411152407.6

一种基于SResNet-SCNN-BiLSTM网络的非侵入式负荷监测方法及系统_吉林化工学院_202410885121.2

一种基于SABO-BiLSTM模型的水泥熟料中游离氧化钙含量软测量方法_济南大学_202410884970.6

CRF2受体激动剂及其在治疗中的用途_科尔特瑞制药公司_202380019995.3

预相关技术

PCP自动预叠线_昆山陆信杨机械科技有限公司_202420126991.7

用于陶瓷型芯的自动预填蜡装置及其预填蜡方法_中国航发北京航空材料研究院_202411191294.0

调整预取操作的方法和用于管理预取操作的系统_三星电子株式会社_202010933481.7

预失真器查找表更新方法、装置及预失真处理系统_贵州振华风光半导体股份有限公司_202411019653.4

一种饲料预混合装置_长沙唐人神湘大骆驼饲料有限公司_202321966847.6

一种预混箱_四川亚特塑料制品有限公司_202420092449.4

钢木结构受力预搭方法_成都东南钢结构有限公司_202210144009.4

一种预浸装置_江苏恒神股份有限公司_202323633113.9

预混型燃烧器_重庆超力高科技股份有限公司_202011412166.6

智能三维空间同步式预湿预混除冰雪材料撒布装置及方法_云南省交通规划设计研究院股份有限公司_202411226894.6

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务