首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于迁移学习的基地命名实体识别系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国人民解放军海军工程大学

摘要:本发明公开了基于迁移学习的基地命名实体识别方法,包括如下步骤:1、对基地数据进行采集和预处理,并根据需要预定义实体类型;2、对基地数据进行标注;3、获取开源的迁移学习模型;4、对本发明所述模型进行训练;5、进行命名实体识别。本发明通过迁移学习使得模型利用额外的海量数据进行预先的自监督训练,解决了传统深度学习模型需要海量标注训练数据的限制,同时运用泛化能力较强的BiGRU模型编码实体的上下文信息,在人为干预较少的情况下实现更准确的基地命名实体预测,为后续知识图谱的自动化构建提供了技术支持。

主权项:1.一种基于迁移学习的基地命名实体识别方法,其特征在于:它包括如下步骤:步骤1:从互联网获取基地的自然语言描述语料,并对自然语言描述语料进行预处理,从而去除图片描述信息和HTML标签信息,并统一描述属性值的单位;步骤2:对预处理之后的自然语言描述语料随机划分成测试集、验证集和训练集,运用BIOES格式标注方式对测试集的自然语言描述语料、验证集的自然语言描述语料和训练集的自然语言描述语料进行实体标注,形成BIOES标注格式的测试集、验证集、训练集;步骤3:获取开源的迁移学习ALBERT模型,通过基地的自然语言描述语料,使用finetune方式更新开源的迁移学习ALBERT模型,得到更新后的迁移学习ALBERT层;步骤4:利用更新后的迁移学习ALBERT层、BiGRU编码层和CRF约束层构建基地命名实体识别模型,使用BIOES标注格式的测试集、验证集和训练集作为基地命名实体识别模型的训练数据集对基地命名实体识别模型进行训练,在训练过程中,使用准确率、召回率、F1值作为训练评价指标,通过不断的迭代拟合,得到训练好的基地命名实体识别模型;步骤5:利用训练好的基地命名实体识别模型对用户上传的语句进行识别,得到上传语句对应的BIOES格式标注;所述步骤5中,训练好的基地命名实体识别模型中更新后的迁移学习ALBERT层对用户上传的语句中的每一个字符映射成分布式字符向量;训练好的基地命名实体识别模型的BiGRU编码层使用BiGRU网络对迁移学习ALBERT层输出的分布式字符向量进行编码,形成多维字符向量;训练好的基地命名实体识别模型的CRF解码层对BiGRU编码层输出的多维字符向量进行解码,并根据BIOES标注格式的隐含顺序关系进行约束,计算得到符合要求的标签标注顺序,得到上传语句对应的BIOES格式标注。

全文数据:

权利要求:

百度查询: 中国人民解放军海军工程大学 基于迁移学习的基地命名实体识别系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。