首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

【发明授权】基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7 

申请/专利权人:昆明理工大学

申请日:2022-04-11

公开(公告)日:2024-06-21

公开(公告)号:CN114676709B

主分类号:G06F40/58

分类号:G06F40/58;G06F40/284;G06F40/268;G06F40/253;G06N3/0455;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.07.15#实质审查的生效;2022.06.28#公开

摘要:本发明涉及基于零代词补齐的汉越数据增强方法,属于自然语言处理技术领域。本发明包括步骤:构建带零代词标签的汉语、越南语单语篇章数据集;使用Transformer共享编码端融合正文和上下文,再将隐状态输入CRF模型中得到代词缺失位置标记;利用代词缺失位置收集词汇、句法、上下文特征集,再将零代词特征集作为外部知识辅助零代词预测分类任务。最后得到补齐代词的汉语、越南语单语数据。本发明所提汉越数据增强方法,通过补齐省略的代词,补齐句法成分,有效提升汉越平行数据集的质量。此外,借助增强的语料,汉越机器翻译性能得到了一定的改善。

主权项:1.基于零代词补齐的汉越数据增强方法,其特征在于:所述方法的具体步骤如下:Step1、数据收集处理:通过网络爬虫技术爬取收集并构建英汉、英越双语平行数据,利用矩阵对齐方法找出汉语、越南语中缺失的代词,并利用英语平行语料中的对应代词,将汉语、越南语中缺失的代词标注补齐,得到零代词信息标注的汉语、越南语单语数据集;缺失的代词即为零代词;Step2、进行零代词补齐,零代词补齐包括零代词位置预测、零代词特征集生成和零代词预测,把预测出的零代词放入源句子进行零代词补齐从而对汉越数据进行增强:零代词位置预测通过词嵌入和位置嵌入分别对正文和上下文进行特征编码,利用Transformer编码器提取特征,其中正文和上下文共享编码端以减少参数;利用上下文注意力机制对正文表征约束,将Transformer编码器得到隐状态输入CRF模型中进行标注,得到零代词位置信息;零代词特征集生成是利用零代词位置信息生成与零代词相关的词汇、句法、上下文特征集合;零代词预测是重新利用Transformer编码端对正文进行编码,同时与零代词特征集做注意力计算,以提升零代词信息表征,最后将注意力计算后的输入表征通过一个多分类器模块,经过线性变换和归一个处理得到分类结果,即零代词预测结果;所述Step2中,零代词位置预测包括:Step2.1、零代词位置预测的任务是找到句子中是否缺失代词,并将代词缺失位置标注出来;设X=x1,..,xk,..,xK表示K个源句子组成的源语言文档,表示第k个源句子包含I个词;使用transformer编码模块对正文的特征嵌入进行编码;为了能够利用序列的顺序,在编码模块中将位置编码添加到词嵌入表征中,位置编码与词嵌入表征具有相同的维数,编码模块核心是自注意力机制,多头注意力模块计算时需要将输入表征分别处理成Q、K、V,具体如下:E=Ex1,x2,...,xI1E=Q=K=V2 其中,E为正文中当前句的词嵌入表征,d表示正文中当前句的词向量维度,Q,K,V∈RI×d分别为查询向量、键向量、值向量,为缩放因子;多头注意力通过不同的线性投影将Q、K、V进行h次线性投影,然后h次投影并行执行缩放点积注意,最后将这些注意结果串联起来再次获得新的表示;headi=AttentionQWiQ,KWiK,VWiV4H=MultiHeadQ,K,V=Concathead1,head2,…,headhWO5其中,H∈RI×d为正文编码后的输出;WO∈Rd×d为训练的参数,dk∈dh;利用上下文编码模块进行上下文特征编码:与标准的Transformer编码器不同的是,上下文编码模块多了一个多头上下文注意力子层来融合上下文信息;为了减少计算成本,采用共享编码器的结构;编码器先编码当前句上下文,上下文注意力子层不参与此过程,第二步编码当前句时,当前句自注意力子层和上下文注意力子层同时参与计算利用上下文信息约束正文中当前句的表征,上下文注意力子层的输入KCon,VCon来自于上下文的编码输出,Q来自于当前句的注意力子层的输出,当前句的编码输出作为隐状态进行下一步计算;H2=AttentionQ,KCon,VCon6其中H2表示上下文注意力模块输出隐状态;再将进行一个前馈神经网络的变换,最后将隐状态表征放入到CRF模型中,进行一个序列标注的工作,最后得到一个标签序列Y=y1,y2,y3,...,yt,...,yn,其中每个yt对应着每个单词xt的标签;单词的标签一共只有两种L={D,N},分别表示缺失代词和没有缺失代词,将代词缺失的后一个单词位置标注为D,其他单词都标注为N,最终将预测的结果和真实的标签计算损失;所述Step2中,零代词特征集生成包括:Step2.2、检测到零代词的位置信息后,根据这个位置信息,挖掘对零代词预测有用的特征:根据零代词的位置信息,从词汇、句法、上下文方面来提取零代词特征集,零代词特征集包括词汇特征:标签词p、p前后各一个词、p前后各一个代词;句法特征:当前句s的主语、谓语、宾语;上下文特征:上一句s-1的主语和宾语、下一句s+1的主语和宾语;所述Step2中,零代词预测包括:Step2.3、进行零代词预测,确定在代词缺失位置具体该补齐哪个代词,把预测出的零代词放入源句子进行零代词补齐从而对汉越数据进行增强:训练一个多分类器,其中每一个类代表着一个可能缺失的代词;使用transformer编码端来对当前句进行表征,与传统transformer编码端不一样的是,增加了一个代词注意力模块,通过挖掘对零代词分类有用的特征,来使输入隐状态更好的表示出零代词信息;零代词注意力模块的KDP、VDP来自于零代词特征集的编码输入,QDP来自于正文多头注意力子层的输出,再将零代词注意力模块的输出进行下一步分类计算;HDP=AttentionQDP,KDP,VDP7其中HDP表示零代词注意力模块的输出;在多分类模块,将编码模块的输入隐状态通过一个线性变化,再进行归一化计算,得到最后的分类结果,即零代词预测结果,把预测出的零代词放入源句子进行零代词补齐从而对汉越数据进行增强;y=softmaxσHW1+b1W2+b28其中H表示编码端输入隐状态,W1,W2,b1,b2为模型参数,σ为sigmoid函数;最终将预测的结果和真实的标签计算损失;损失函数为: 其中N表示训练样例数,C表示类别标签数,表示模型预测类别c的概率。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于零代词补齐的汉越数据增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。