买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:华中科技大学
摘要:本发明公开了一种面向细粒度实体分类的噪声标签修正方法,包括以下步骤:1获取样本中句子和句子中已经标注出的实体提及作为输入;2将句子和句子中已经标注出的实体提及二元组按照进行转换;3将转换后的输入作为预训练语言模型BERT的输入,对[MASK]位置进行预测,将标签在[MASK]位置处的出现概率作为样本拥有该标签的概率;4在步骤3中,在模型网络过拟合前,依据模型在过拟合前输出的logits估计样本标签为正的概率;5利用模型在过拟合前输出的logit估计数据标签为正或负的后验概率,选取潜在噪声标签,利用半监督学习方法对潜在噪声标签进行重标注。本发明方法在不引入人工先验知识的情况下,可有效修正细粒度实体分类数据中的噪声标签。
主权项:1.一种面向细粒度实体分类的噪声标签修正方法,其特征在于,包括以下步骤:1根据细粒度实体分类数据集获取样本中句子和句子中已经标注出的实体提及作为输入;2将句子和句子中已经标注出的实体提及二元组按照如下模板进行转换;Tx,m=x[P1]m[P2][P3][MASK]式中,[P1][P2][P3]是随机初始化的可训练的参数,共同组成提示模板,[MASK]为预训练语言模型中使用的掩码符号,x为句子,m为句子中标出的实体,T为转换函数;3将转换后的输入作为预训练语言模型BERT的输入,对[MASK]位置进行预测,将标签在[MASK]位置处的出现概率作为样本拥有该标签的概率;4在步骤3中,在模型网络过拟合前,依据实体分类模型在过拟合前输出的logits估计样本标签为正的概率;4.1根据样本的原始标签以及logits,采用启发式的算法过滤噪声样本;4.2计算样本标签为正的概率 其中,y为样本标签,y=1对应正样本,y=0对应负样本,l表示实体分类模型对样本输出的logits;5利用实体分类模型在过拟合前输出的logit估计数据标签为正或负的后验概率,通过对比后验概率与原始标签选取潜在噪声标签,利用半监督学习方法对潜在噪声标签进行重标注,完成修正;所述步骤5具体如下:5.1对比样本标签为正的后验概率与原始标注,若满足下列条件之一,则将选取其为潜在噪声标签: 其中,py=1|logit为样本标签为正的后验概率,为原始标注,∈[0,0.5]为算法超参数;5.2利用剩余的干净标签继续微调模型,同时将潜在的噪声样本视为无标签数据并对其施加熵正则化,鼓励决策边界位于低密度样本区域;微调结束后依据模型输出对潜在噪声样本进行重新标注,若模型输出logit大于0,则赋予正标签,反之赋予负标签。
全文数据:
权利要求:
百度查询: 华中科技大学 一种面向细粒度实体分类的噪声标签修正方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。