首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向小语种包含精确术语匹配的机器翻译方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:江苏金陵科技集团有限公司

摘要:本发明公开了一种面向小语种包含精确术语匹配的机器翻译方法,包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度。

主权项:1.面向小语种包含精确术语匹配的机器翻译方法,其特征在于:包括如下步骤:平行语料及小语种单语语料的收集预处理、借助统计机器翻译、神经机器翻译引擎扩充小语种到汉语的平行语料完成数据增强、术语翻译融入句法分析提升翻译效果以及提高整个机器翻译的忠实度和流利度;详细的步骤如下:步骤1,语料收集:从公开的数据集中筛选出以下质量较高的语料:至少千万级别的非汉语大语种与汉语的双语平行语料、以下称为平行语料A,待翻译小语种与非汉语大语种的双语平行语料、以下称平行语料B,待翻译小语种与汉语的双语平行语料、以下称平行语料C,汉语单语语料、以下称语料X,待翻译小语种与汉语双语术语词典库;步骤2,非汉语大语种与汉语神经机器翻译模型训练:基于平行语料A,利用深度神经网络训练出非汉语大语种到汉语方向的神经机器翻译模型;步骤3,扩充待翻译小语种和汉语平行语料:利用新训练的非汉语大语种与汉语神经机器翻译模型,将平行语料B中的非汉语大语种语料翻译成汉语,形成待翻译小语种与汉语的双语平行语料D;步骤4,汉语和待翻译小语种统计机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于短语的统计机器翻译、基于句法的统计机器翻译训练出汉语到待翻译小语种的统计机器翻译模型;步骤5,汉语和待翻译小语种神经机器翻译模型训练:以平行语料C、平行语料D为基础,分别利用基于卷积网络的神经机器翻译、基于Transformer模型的神经机器翻译训练出汉语到待翻译小语种的神经机器翻译模型;步骤6,基于汉语和待翻译小语种统计机器翻译进行语料扩充:利用步骤4训练的多个汉语和待翻译小语种统计机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料E;步骤7,基于汉语和待翻译小语种神经机器翻译进行语料扩充:利用步骤5训练的多个汉印神经机器翻译模型分别将汉语单语语料X翻译成待翻译小语种语料,形成待翻译小语种与汉语的双语平行语料F;步骤8,构建自动机双数组前缀树:机器翻译实际用户将积累的领域内待翻译小语种与汉语双语术语词典导入机器翻译系统,生成自动机双数组前缀树,用于待翻译句子潜在术语检索;步骤9,生成术语占位符训练语料:借助待翻译小语种与汉语双语术语词典库,遍历平行语料E和平行语料F,借助自动机双数组前缀树搜索待翻译小语种句子中包含待翻译小语种术语,并且对应的汉语句子中包含待翻译小语种术语对应的汉语译文的所有平行句对,将查找到的句对利用自然语言处理工具进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将对应的双语句子中的术语以及译文替换成占位符,考虑到单个句子中可能会出现多个术语,可以通过替换成多个不同的占位符生成多条平行语料,最终生成占位符平行语料G;步骤10,待翻译小语种和汉语神经机器翻译模型训练:经过上述步骤,已经通过多种途径收集或生成了平行语料C、平行语料E、平行语料F、平行语料G,从多种途径完成了待翻译小语种与汉语的双语平行语料的数据增强;针对最终形成的待翻译小语种与汉语平行语料,利用神经机器翻译训练出待翻译小语种到汉语的基于Transformer的神经机器翻译模型;步骤11,待翻译小语种和汉语神经机器翻译模型应用:输入待翻译的待翻译小语种语句,借助自动机双数组前缀树搜索句子中是否包含潜在术语,如果包含则借助利用自然语言处理工具对待翻译句子进行句法分析,进一步判断该术语在句子中的成分是否为名词或短语,如果是则将搜索到的术语替换成占位符,然后调用待翻译小语种和汉语神经机器翻译模型完成待翻译的待翻译小语种句子推理得到汉语译文,将汉语译文中的占位符替换成术语对应的汉语译文,完成包含术语翻译的机器翻译过程,如果自动机双数组前缀树没有搜索到潜在术语,则直接翻译得到汉语译文。

全文数据:

权利要求:

百度查询: 江苏金陵科技集团有限公司 一种面向小语种包含精确术语匹配的机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。