首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于分化适配器的汉老泰多语言神经机器翻译方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明涉及基于分化适配器的汉老泰多语言神经机器翻译方法,属自然语言处理技术领域。汉‑老‑泰多语言机器翻译框架通过模型参数共享能有效共享相似语言知识提升老‑汉和泰‑汉翻译性能,但引入模型参数共享会导致不同语言间参数相互干扰问题。针对汉‑老‑泰多语言机器翻译框架中的参数干扰降低机器翻译质量问题,本发明包括数据处理和模型预训练、进行基于分化适配器的汉‑老‑泰多语言神经机器翻译模型微调、构建基于分化适配器的汉‑老‑泰多语言神经机器翻译装置三部分。本发明对输入的泰语或老挝语进行目标语言的翻译,本发明有效提升了汉‑老‑泰多语言机器翻译质量。

主权项:1.基于分化适配器的汉老泰多语言神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、数据处理和模型预训练:首先构建平行语料库,然后利用平行语料来建立一个预训练的汉-老-泰多语言神经机器翻译模型;Step2、进行基于分化适配器的汉-老-泰多语言神经机器翻译模型微调:对预训练的汉-老-泰多语言神经机器翻译模型进行共享训练时,首先对预训练后的原始模型的各模块进行参数干扰分析,评估各模块的参数干扰程度;然后,根据参数干扰分析的结果,为Step1得到的机器翻译模型中参数干扰程度大的模块添加分化适配器并进行微调再训练;Step3、构建基于分化适配器的汉-老-泰多语言神经机器翻译装置:将Step2基于分化适配器的汉-老-泰多语言神经机器翻译模型整合为可在服务器上调用的API接口;通过调用模型API接口,构建了一个多端的汉-老-泰多语言神经机器翻译装置;该装置由客户端和服务端组成;客户端的任务是接收用户提供的原始老挝语或泰语文本,将其传送至服务端进行翻译处理,服务端负责执行翻译任务,并将结果返回给客户端;所述Step1的具体步骤为:Step1.1数据构建:把主题词组作为提示输入给大语言模型,大语言模型利用这些主题词组提示能准确识别出与中文语料和泰文语料相关的内容;然后,通过提供中泰平行语料例句,以及如何过滤重复信息的提示,大语言模型能快速学会从杂乱数据中提取高质量的中泰平行语料,以初步构建高质量平行语料数据;Step1.2数据处理:采用东南亚语言词法句法分析平台,进行分词和正则化处理,在语言专家的协助下构建停用词表,能有效清除语料中的英语实体;同时提供人工翻译样本,让大语言模型学习参考表达方式;输入常见的翻译偏差词组,提醒大语言模型避开偏差;提供反例句子,让大语言模型识别翻译错误;设置各种约束条件,并在结果生成后加入检测机制进行修正;Step1.3数据准备:使用字符序列及音素序列训练统一框架的多语言神经机器翻译模型;使用了G2P工具将Step1.2的文本数据转化成了对应的音素文本,构造包括老、泰文本—老、泰音素文本—汉语文本的平行句对数据集;从中分别选取泰语-汉语平行句对以及老挝语-汉语平行句对作为训练集,每种语言组合还各自选取了验证集和测试集;Step1.4模型预训练:选择一个现有的多语言翻译模型,作为原始模型进行预训练;在Transformer翻译框架下,对原始模型的编码端设计音素特征表示模块和泰老文本表示模块;然后,Step1.3处理的字符序列和音素序列经过数据预处理后传递到编码层;通过交叉注意力机制,获得了融合了音素特征的泰老文本表示,从而缩短泰老语言之间的语义距离,更有效地提取和编码输入文本的信息,以便在解码端进行交互生成预测的翻译序列;这样,一个完整的预训练过程就得以完成,最终得到一个预训练好的汉-老-泰多语言神经机器翻译模型,为分化适配器方法提供模型支持。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于分化适配器的汉老泰多语言神经机器翻译方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。