首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于伪标签降噪策略的跨语言命名实体识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华中科技大学;中国平安财产保险股份有限公司

摘要:本发明公开了一种基于伪标签降噪策略的跨语言命名实体识别方法,包括以下步骤:1给定一段目标语言数据集包含n个字词的文本X,为X中的连续文本片段si分配实体标签,进行文本片段分类;2对于目标语言数据集的文本X,对其进行掩码处理;3训练源模型,在源语言数据上进行实体识别任务;4训练目标模型;在目标语言数据上进行实体识别任务。本发明提出了一种利用语义空间全局和局部语义信息逐步提高伪标签准确性的方法,可以有效提高模型处理目标语言的实体识别的能力。

主权项:1.一种基于伪标签降噪策略的跨语言命名实体识别方法,其特征在于,包括以下步骤:1给定一段目标语言数据集包含n个字词的文本X={x1,x2,…,xn},为X中的连续文本片段分配实体标签,进行文本片段分类;其中,和为si的首、尾词;2对于目标语言数据集的文本X={x1,x2,…,xn},对其进行掩码处理;2.1对于目标语言数据集Dtgt上的文本X={x1,x2,…,xn},对其进行掩码处理,获取其中xi′为原本的词xi或掩码词[MASK];2.2通过预训练语言模型pre-trainedlanguagemodel,PLM获取X′中的每个字词向量编码2.3将H′通过一个掩码语言模型头获取概率分布值pi′∈R|V|,其中,V表示PLM的单词集;对于每一个xi′∈X’,其标签yi设定为xi在V中的序号Id;损失函数表示为: 其中,为指示函数,CE·,·表示交叉熵损失函数;3训练源模型,在源语言数据上进行实体识别任务;3.1通过预训练语言模型获取X中的每个字词向量编码:3.2记SX为X中文本片段的集合,对于每一个si∈SX,引入长度特征li和形态特征mi,并结合其首尾词的向量获得其综合特征3.3将zi通过分类器,获取实体类型概率分布pi∈R|C|,其中C为实体类型集;对于源语言数据集Dsrc,获取每个si的真实实体标签yi;损失函数定义为:LS=Lsrc+ωLmlm其中,ω为权重超参,用于控制掩码语言建模任务的比重; 其中,CE·,·表示交叉熵损失函数,N为数据集中文本的数量;4训练目标模型;在目标语言数据上进行实体识别任务;目标模型的整体损失函数LT为:LT=Lsrc+Ltgt+ωLmlm其中,在目标语言数据上的实体识别任务目标Ltgt为: 其中,是由源模型生成的伪标签。

全文数据:

权利要求:

百度查询: 华中科技大学 中国平安财产保险股份有限公司 基于伪标签降噪策略的跨语言命名实体识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。