首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

融入源语言词级信息的汉越低资源跨语言摘要方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明提供了融入源语言词级信息的汉越低资源跨语言摘要方法,属于自然语言处理领域,针对解决跨语言摘要任务,本发明首先使用一个提取器对源语言文档的每个词进行一个打分,为了使每个词的得分更加准确,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分。然后,将每个词的得分融入到跨语言摘要的生成过程中。由于单语言摘要、机器翻译任务与跨语言摘要任务有着密切的相关性。因此,本发明将这两个任务与跨语言摘要任务进行联合学习。本发明提出的方法能够基于少量平行语料有效地提升摘要生成的质量,适用于低资源环境下及相似性语言环境下的跨语言摘要生成任务。

主权项:1.融入源语言词级信息的汉越低资源跨语言摘要方法,其特征在于:所述方法的具体步骤如下:Step1、语料预处理:进行越南语数据采集,采集到的数据通过预处理得到不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;Step2、源语言词级信息提取:提取器对源语言文档的每个词进行一个打分,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分,提取出重要的、关键的词级信息;Step3、融入源语言词级信息的汉越跨语言摘要模型构建:将机器翻译和单语摘要任务与跨语言摘要任务联合训练,并将提取器提取出源语言词级信息融入到跨语言摘要的生成过程中,使用Step1的语料作为模型输入,产生最终的摘要;所述Step2的具体步骤如下:Step2.1、提取器的目标是将源语言文本里的词级信息提取出来,即根据每个词对摘要生成的影响,给每个词进行一个权重分配,将一篇源语言文本输入到提取器,首先使用时间卷积神经网络模型得到每个词的表征rj,将每个词的表征rj输入到双向LSTM-RNN即LSTM-Decoder得到每个词进一步的表征hj;然后,提取器添加了另一个LSTM-RNN即LSTM-Decoder来训练指针网络,最终,每个词的得分qi计算如下: 其中,公式里et是通过glimpseoperation的输出得到的: 在公式3中,zt为LSTM-Decoder的输出,vp、Wp1、Wp2、vg、Wg1、Wg2均是提取器模型可训练的参数;在每t个时间步,LSTM-Decoder执行2-hop注意机制:首先通过关注hj获得上下文表征et,然后再次通过关注hj以获得每个词最终的得分,其中,jt表示在时间步长t时选择的词,jk表示在时间步长k时选择的词;所述Step3的具体步骤如下:Step3.1、将越南语源语言文本输入编码器,得到越南语文本的表征;为了使编码器能够识别与摘要最相关的信息,首先,使用提取器来预测输入的源语言文章的每个词成为摘要的概率权重,即每个词的得分qi;然后,在模型的编码器E上附加了一个额外的输出层,它预测了在摘要中包含第i个词的概率pi;为了使提取器提取的源语言词级信息融入到跨语言摘要的生成过程中,采取的策略是最大限度地减少qi和pi之间的差异;对于模型编码器和提取器之间的交互,使用以下损失函数: 其中,L表示源语言文章中词的个数;Step3.2、解码器的目标是生成中文摘要为了更好的联合训练单语摘要任务和跨语言摘要任务,共享整个解码器D1的参数;具体而言,将源语言摘要和目标语言摘要拼接起来一同输入解码器中: 其中,[BOS]和[EOS]分别是输出摘要的开始和结束标签,[LSEP]是将源语言摘要和目标语言摘要区分的分隔符;解码器首先生成源语言摘要在此基础上,生成目标语言摘要这样,将不同语言摘要之间的关系联系起来,实现知识的转移;使用以下损失函数: 在公式8中,n和表示源语言摘要中词的个数,n′表示目标语言摘要中词的个数,m表示每个样本的编号,表示源语言摘要中第i个词,表示源语言摘要中前i个词,不包括第i个词;表示目标语言摘要中第i个词,表示目标语言语言摘要中前i个词,不包括i个词;Step3.3、由于跨语言摘要被认为是一种特殊的机器翻译,机器翻译的信息压缩比是1:1,跨语言摘要的信息压缩比是n:1;所以把机器翻译作为联合训练任务,这样在跨语言摘要生成的过程中,更好的解决“跨”的过程;用构建的源语言摘要和目标语言摘要作为训练编码器E和解码器D2的训练集;使用如下的损失函数: 为了更好的利用机器翻译任务来帮助跨语言摘要生成,做了两方面的工作;第一,共享了两个解码器D1和D2的底层参数,顶层参数则分别进行了训练;第二,采用交替训练策略,用固定数量的小批量数据优化每个任务,以联合训练跨语言摘要和机器翻译;Step3.4、最终的损失函数如下:Lθ=Lcls+Lmt+λLdis10这里,λ是个超参数,在实验里,设置为10,最终的训练目标由两个部分构成;第一,在构建的语料库中抽取一个批次用Lmt来训练编码器E和解码器D2;第二,在构建的语料库中抽取一个批次利用Lmt+λLdis来训练E和解码器D1。

全文数据:

权利要求:

百度查询: 昆明理工大学 融入源语言词级信息的汉越低资源跨语言摘要方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。