买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:昆明理工大学
摘要:本发明涉及融合多粒度特征的越南语语法错误纠正方法及装置,属自然语言处理领域。本发明在模型编码端融入额外的越南语字符、音节和句子特征嵌入,然后利用一个序列标注网络预测输入句子的错误位置,再使用多语言BERT的掩码语言模型重新预测错误位置的词,得到数个纠正候选句子,最后利用N‑gram语言模型对候选句子打分,选出得分最高的句子作为纠正句子输出。该方法避免了直接生成句子,而是根据错误检测结果对输入句子进行修改,不会改变输入句子的基本语法结构。实验结果表明本发明比基于Transformer模型的基线方法的F0.5值和F1值分别提升了16.69%和17.84%,语法纠错效果明显优于序列到序列的生成模型。
主权项:1.融合多粒度特征的越南语语法错误纠正方法,其特征在于,所述方法的具体步骤如下:Step1、越南语文本数据获取并对其进行预处理;Step2、对输入的越南语句子进行词嵌入表示,并且融合额外的特征向量;对输入的越南语句子进行语法错误检测;Step3、根据检测结果利用mBERT掩码语言模型对错误位置的词进行纠正,得到数个候选句子;利用N-gram语言模型对候选句子打分,选出得分最高的纠正候选句子输出;所述Step2的具体步骤如下:Step2.1、对于输入的包含语法错误的句子X=x1,...,xi,...,xn,利用多语言BERT模型mBERT对输入句子的每个音节xi进行词嵌入初始化,得到编码后的隐状态表示: 其中,表示mBERT编码器最后一层的隐状态输出,L表示隐层网络层数;Step2.2、对输入的每个音节xi进行字符特征嵌入,首先对xic1,c2,....,cM进行字符拆分,得到当前音节的每个字符cj,然后对每个字符cj进行One-hot编码,得到音节xi对应的字符特征向量Ci: 其中,M表示音节的字符总数,DC表示字符特征维度大小,fkx表示第k维的One-hot编码;Step2.3、对输入的每个音节xi进行音节特征嵌入,音节特征包括每个音节对应的词性和它的声调,先判断输入音节的词性标签pi和声调标签ti,然后分别根据词性和声调标签进行One-hot编码,得到词性特征向量Pi和声调特征向量Ti,最后将Pi和Ti进行拼接操作得到音节特征向量Si: Si=ConcatPi,Ti4其中,fkx表示第k维的one-hot编码,DP表示词性特征维度,DT表示声调特征维度;Step2.4、对输入的每个音节xi进行句子特征嵌入,句子特征包括短语成分特征和相邻音节匹配度特征,用一个矩阵表示第i个音节对应的短语成分特征矩阵,其中,ds表示成分标注集大小,dm表示短语成分特征维度,第k维的权重参数从一个服从上的均匀分布进行随机采样,采样样本数为dm;Step2.5、使用相邻音节匹配度ASM来表示输入句子中两个相邻音节之间的语法正确程度,首先使用点互信息PMI来表示相邻音节之间的相关性: 其中,Ps1,s2表示两个音节s1和s2在语料库中同时出现的概率,Ps表示某个音节s在语料库中单独出现的概率;Step2.6、用一个矩阵表示第i个音节的相邻音节匹配度特征,其中,dm表示特征维度,矩阵中的每个权重参数用相邻音节匹配度ASM进行初始化: Step2.7、将第i个音节的短语成分特征向量和相邻音节匹配度特征向量进行拼接,得到句子特征向量Gi,然后再将字符特征向量Ci、音节特征向量Si和句子特征向量Gi按照最大维度填充后再拼接,得到音节xi对应的特征向量Fxi: Fxi=Pad_ConcatCi,Si,Gi8Step2.8、得到每个音节xi的特征嵌入Fxi后,再将其和mBERT编码器的最后一层隐状态输出进行拼接,得到最终的隐状态表示Xi,然后将送入一个softmax层去计算每个音节xi的预测标签概率li: li=softmaxWOXi+bO10其中,WO是softmax层的矩阵权重参数,bO是偏置项权重参数;所述Step3的具体步骤如下:Step3.1、根据Step2中得到的预测标签序列L=l1,l2,...,ln进行语法错误纠正,首先遍历检测结果标签序列中的每个标签li,如果li为“O”,则纠正句子中对应位置处的音节保持不变,否则将对应位置处的音节替换为“MASK”标记;Step3.2、利用mBERT掩码语言模型对“MASK”标记位置的词进行重新预测,给出5个候选纠正项{a1,a2,a3,a4,a5};Step3.3、原输入句子X的“MASK”标记处分别用5个纠正候选项进行替换,得到对应的5个纠正候选句子{Y1,Y2,Y3,Y4,Y5};Step3.4、利用N-gram语言模型对得到的5个纠正候选句子进行打分: 其中,S表示输入的候选句子,Px表示利用N-gram语言模型计算出的某个音节x在语料库中出现的概率;Step3.5、选择5个候选句子中得分最高的作为最终的纠正句子输出:Yout=max{scoreY1,scoreY2,scoreY3,scoreY4,scoreY5}13。
全文数据:
权利要求:
百度查询: 昆明理工大学 融合多粒度特征的越南语语法错误纠正方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。