首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于上下文的汉越跨语言句嵌入方法 

申请/专利权人:昆明理工大学

申请日:2022-05-19

公开(公告)日:2024-06-21

公开(公告)号:CN114861631B

主分类号:G06F40/211

分类号:G06F40/211;G06F40/279;G06F40/30;G06F18/22;G06N3/0455;G06N3/08

优先权:

专利状态码:有效-授权

法律状态:2024.06.21#授权;2022.08.23#实质审查的生效;2022.08.05#公开

摘要:本发明涉及基于上下文的汉越跨语言句嵌入方法,属自然语言处理领域。本发明首先构建训练数据集;再利用mBERT模型获取训练数据集中对应的汉越上下文跨语言句嵌入,并基于孪生网络结构搭建线性微调层,对获取到的汉越上下文跨语言句嵌入进行重构,并以此构建对比损失用于反向优化微调层。本发明通过构建融合孪生网络结构的线性微调层对mBERT模型中获取到的汉越上下文跨语言句嵌入进行重构,有效缓解了mBERT模型中因汉越句级平行语料稀缺及语法差异较大导致的汉越跨语言句嵌入语义对齐效果不佳的问题。实验结果表明,本发明的准确度均取得了较大提升,提高汉越嵌入分布间的重合度,改善汉越低资源上下文跨语言句嵌入的语义对齐效果。

主权项:1.基于上下文的汉越跨语言句嵌入方法,其特征在于:所述方法的具体步骤如下:Step1、使用汉语与越南语同主题的可比语料构建汉越平行句对数据集与非平行句对数据集作为正例和负例,进行相应预处理操作后用于孪生网络线性微调层的训练;Step2、基于mBERT模型获取训练集对应的汉越上下文跨语言句嵌入,并融合孪生网络结构搭建线性微调层,用于对mBERT模型中获取到的汉越上下文跨语言句嵌入进行重构,并构建对比损失用于反向优化线性微调层;Step3、将mBERT模型与优化好的线性微调层进行组合,得到基于上下文的汉越跨语言句嵌入模型mBERT-SF,用于获取高质量的汉越上下文跨语言句嵌入;所述Step2的具体步骤为:Step2.1、基于多语预训练模型mBERT获取训练集中对应的汉越上下文跨语言句嵌入CLSS和CLST;Step2.2、构建两个结构相同的子网络Network1和Network2组成线性重构层,分别对汉越输入句对中对应的上下文跨语言句嵌入CLSS和CLST进行重构,使具有相同语义的汉越跨语言句嵌入在共享嵌入空间中拥有相近的向量表示;每个子网络均由一个全连接层和一个Dropout层构成,其中,全连接层大小为768维*768维,负责对mBERT模型输出的原始上下文跨语言句嵌入进行特征提取;为进一步提升模型的泛化能力,在全连接层fc后添加了一层Dropout层,通过对全连接层中的神经元以概率p进行随机剔除,防止模型产生过拟合问题;两个子网络Network1和Network2特征提取过程如公式1所示,由于两个网络的结构相同且权重共享,因此这里使用x代表汉语或越南语微调前的跨语言句嵌入CLSS、CLST,利用同样的计算公式展示两者的运算过程;y=pfWx1公式1中,x代表子网络Network1和Network2重构后的输出,其中pfWx代表Dropout层的输出,p为神经元的随机剔除概率、W为全连接层fc的权重值;最终结果y即可代表经微调层重构后的汉语和越南语上下文跨语言句嵌入Ezh和Evi;Step2.3、采用对比损失构建匹配层用于反向微调两个子网络,使正例中的汉越上下文跨语言句嵌入尽可能相似,负例间的嵌入相似度尽可能低,如公式2所示; DEzh,Evi=||Ezh-Evi||23其中,Ezh和Evi为经微调层重构后的汉语与越南语上下文跨语言句嵌入;DEzh,Evi代表两嵌入之间的欧式距离,如公式3所示;l代表输入的汉越句对所对应的标签,当输入为平行句对所构建的正例时,l=0,为非平行句对构成的负例时,l=1;m为设定的最大边距值margin,通过执行m-DEzh,Evi运算为负例中欧氏距离超过最大边距值的句对生成较小的损失,以满足模型的优化目标;所述Step3的具体步骤为:Step3.1、将mBERT模型与优化好的线性微调层进行融合,组成mBERT-SF模型;Step3.2、当输入新的汉语或越南语句子时,首先基于mBERT模型获取其对应的汉越或越南语上下文跨语言句嵌入;然后,通过融合孪生网络结构的线性微调层对其进行重构,使具有相似语义的汉越上下文跨语言句嵌入在共享嵌入空间中拥有更为相近的向量表示,有效缓解多语预训练模型中汉越句级平行语料稀缺和语言差异性大导致的语义对齐误差问题。

全文数据:

权利要求:

百度查询: 昆明理工大学 基于上下文的汉越跨语言句嵌入方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。