首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于加密平行语料的藏汉神经机器翻译方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学

摘要:一种基于加密平行语料的藏汉神经机器翻译方法,属于自然语言处理中的机器翻译技术领域。本方法针对藏汉翻译任务,首先使用34个藏文辅音字母制作藏文字母表,根据字母表对藏汉平行语料中的藏语句子使用凯撒加密技术进行单字母替换,获得由加密藏文句子和对应汉语句子组成的加密平行语料。随后将加密平行语料输入到藏汉翻译模型,使藏汉翻译模型的损失函数中添加加密藏语和汉语句子对的负对数似然损失函数。同时,测量藏文句子和加密藏文句子的输出分布之间的对称化KL散度并将其添加到藏汉翻译模型的损失函数中,使藏汉语料与加密语料进行显式交互。本发明适用于机器翻译技术领域,保证源与目标句子的内容对齐,提高翻译性能。

主权项:1.一种基于加密平行语料的藏汉神经机器翻译方法,其特征在于:包括如下步骤,步骤1:对藏汉平行语料进行预处理,得到分词后的藏汉平行语料Df;步骤2:使用凯撒密码技术对分词后的藏汉平行语料Df进行加密,生成加密藏汉平行语料cipherDf;步骤3:对语料Df和cipherDf进行BPE处理,获得BPE处理后的语料Dbpe和cipherDbpe;步骤4:使用BPE处理后的藏汉平行语料Dbpe和加密平行语料cipherDbpe共同训练藏汉神经机器翻译模型;步骤5:使用藏汉神经机器翻译模型,把藏文句子翻译成汉语句子;至此,经过步骤1到步骤5,首先使用34个藏文辅音字母制作藏文字母表,根据藏文字母表对藏汉平行语料中的藏语句子使用凯撒加密技术进行单字母替换,获得由加密藏文句子和对应汉语句子组成的加密平行语料;随后用藏汉平行语料和加密平行语料来共同训练翻译模型,以输入“多语言”数据的视角强化模型性能;同时,在模型训练阶段还使用对称化的KL散度来使藏语句子和加密藏文句子的输出分布之间进行显式交互,进一步提高模型的翻译性能;最后用训练好的翻译模型把藏文测试句子翻译成汉语句子。

全文数据:

权利要求:

百度查询: 北京理工大学 一种基于加密平行语料的藏汉神经机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。