买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及基于跨语言统一词表示的远距离语言神经机器翻译方法,属自然语言处理领域。为了解决迁移学习方法运用于远距离语言间神经机器翻译时,因词表重叠度低,导致迁移学习方法难以发挥其有效性的问题。针对使用不同书写系统且词语的语法和语义存在明显差异的两种语言,提出了本发明方法,该方法包括构建统一词表示词表、构建统一词表示化数据、构建迁移学习方法的父模型以及构建基于跨语言统一词表示的远距离语言神经机器翻译模型。本发明在应用于远距离语言间神经机器翻译任务时,能够有效的缩小语言间的差异,缓解了因词汇重叠度低导致的迁移学习方法有效性下降的问题,显著提升了远距离语言间神经机器翻译的性能。
主权项:1.基于跨语言统一词表示的远距离语言神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、构建跨语言统一词表示词表:利用专业双语词典构建一个跨语言统一词表示词表,以将源语言和目标语言都统一在内,构建一种包括源语言、目标语言和英语三种语言在内的跨语言统一词表示词表;Step2、构建统一词表示化数据:根据跨语言统一词表示词表替换目标语言中对应的词,以构建统一词表示化数据,并将源语言数据与统一词表示化数据构成双语平行句对,以此作为子模型的训练数据;同时,将统一词表示化操作前的数据一并保存,以生成特征约束数据;Step3、构建迁移学习方法的父模型:基于Transformer模型,使用英语——目标语言语种双语平行数据作为训练数据,训练父模型,并保存最好的模型参数,以初始化子模型和生成特征约束数据;Step4、构建基于跨语言统一词表示的远距离语言神经机器翻译模型并用其进行翻译:使用构建的统一词表示化数据作为神经翻译模型的输入,在神经翻译模型训练期间,利用目标语言在进行统一词表示化前的原数据的句子特征,对模型的训练进行约束,以减少统一词表示以确保模型可以学习到正确的目标语言特征,最后引入一个额外的还原模块,用以将模型输出的统一词表示化数据还原为目标语言,得到最终的翻译结果。
全文数据:
权利要求:
百度查询: 昆明理工大学 基于跨语言统一词表示的远距离语言神经机器翻译方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。