一种面向细粒度实体分类的噪声标签修正方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：华中科技大学

摘要：本发明公开了一种面向细粒度实体分类的噪声标签修正方法，包括以下步骤：1获取样本中句子和句子中已经标注出的实体提及作为输入；2将句子和句子中已经标注出的实体提及二元组按照进行转换；3将转换后的输入作为预训练语言模型BERT的输入，对[MASK]位置进行预测，将标签在[MASK]位置处的出现概率作为样本拥有该标签的概率；4在步骤3中，在模型网络过拟合前，依据模型在过拟合前输出的logits估计样本标签为正的概率；5利用模型在过拟合前输出的logit估计数据标签为正或负的后验概率，选取潜在噪声标签，利用半监督学习方法对潜在噪声标签进行重标注。本发明方法在不引入人工先验知识的情况下，可有效修正细粒度实体分类数据中的噪声标签。

主权项：1.一种面向细粒度实体分类的噪声标签修正方法，其特征在于，包括以下步骤：1根据细粒度实体分类数据集获取样本中句子和句子中已经标注出的实体提及作为输入；2将句子和句子中已经标注出的实体提及二元组按照如下模板进行转换；Tx,m＝x[P1]m[P2][P3][MASK]式中，[P1][P2][P3]是随机初始化的可训练的参数，共同组成提示模板，[MASK]为预训练语言模型中使用的掩码符号，x为句子，m为句子中标出的实体，T为转换函数；3将转换后的输入作为预训练语言模型BERT的输入，对[MASK]位置进行预测，将标签在[MASK]位置处的出现概率作为样本拥有该标签的概率；4在步骤3中，在模型网络过拟合前，依据实体分类模型在过拟合前输出的logits估计样本标签为正的概率；4.1根据样本的原始标签以及logits，采用启发式的算法过滤噪声样本；4.2计算样本标签为正的概率其中，y为样本标签，y＝1对应正样本，y＝0对应负样本，l表示实体分类模型对样本输出的logits；5利用实体分类模型在过拟合前输出的logit估计数据标签为正或负的后验概率，通过对比后验概率与原始标签选取潜在噪声标签，利用半监督学习方法对潜在噪声标签进行重标注，完成修正；所述步骤5具体如下：5.1对比样本标签为正的后验概率与原始标注，若满足下列条件之一，则将选取其为潜在噪声标签：其中，py＝1|logit为样本标签为正的后验概率，为原始标注，∈[0,0.5]为算法超参数；5.2利用剩余的干净标签继续微调模型，同时将潜在的噪声样本视为无标签数据并对其施加熵正则化，鼓励决策边界位于低密度样本区域；微调结束后依据模型输出对潜在噪声样本进行重新标注，若模型输出logit大于0，则赋予正标签，反之赋予负标签。

全文数据：

权利要求：

百度查询：华中科技大学一种面向细粒度实体分类的噪声标签修正方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种轮胎模具活字块快换结构

下一篇：一种速通摆闸

相关技术

一种轮胎模具活字块快换结构

一种速通摆闸

一种卧床颈椎固定装置

一种双段风燃烧装置

一种珍珠增光设备

一种水箱散热器

一种堆焊修复工作台

一种模具钢表面的精加工设备

一种抗摔的POS机外壳结构

一种物联网网关装置

一种刀模加工用去毛刺设备

一种基于一体成型设计的高强度薄壁塑料椅

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种面向细粒度实体分类的噪声标签修正方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务