买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:昆明理工大学
摘要:本发明涉及利用局部多头注意力机制融合词‑音节对的泰文和缅甸文词性标注方法,属自然语言处理领域。本发明包括:预处理泰文或者缅甸文文本数据集;使用窗口化的方式选择词语‑音节对特征作为模型输入;之后利用局部多头注意力机制从词语‑音节对序列中学习上下文特征;最后通过条件随机场建模词性依赖关系,进行词性标签的预测。针对泰文和缅甸文词性标注数据集的实验结果表明,与当前最优模型相比,本发明将音节作为词语的形态学特征进行融入,有助于学习未知词的上下文特征,缓解未知词错误标注对模型性能的影响。并且本发明采用局部多头自注意力机制可以使模型获取更丰富的局部依赖特征,在词性标注任务中取得更好的标注结果。
主权项:1.利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法,其特征在于:所述方法的具体步骤如下:Step1、对泰文文本数据集或者缅甸文数据集进行文本预处理,通过对句子中的每个词语进行音节切分找到词语中潜在的词缀信息,从而将单词序列扩展为词-音节对的序列;Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含n个词语-音节对信息的输入,利用局部多头注意力机制对词语-音节对进行特征编码,然后通过拼接Transformer编码器的输出特征和音节嵌入得到输入的n-gram的预测的共享特征;Step3、最后通过条件随机场建模词性依赖关系,进行词性标签的预测;所述步骤Step1的具体步骤为:Step1.1、根据泰文文本中用“\n”划分的词汇,针对训练集构建词语字母表和词性标签字母表;Step1.2、调用泰文或者缅甸文音节切分器对文本中的词语进行音节切分,构建音节字母表;Step1.3、随后,对于每一个词语,为它分配它所包含的音节;其中对于音节,只截取组成每个单词的前缀音节和后缀音节作为输入;如果存在某些由单音节构成的单词,那么将对该音节进行”PAD”操作作为补充,使输入的音节向量完整;所述步骤Step2的具体步骤如下:Step2.1、编码层将n-gram的单词嵌入和它相对应的音节嵌入的拼接作为编码器的输入,输入的n-gram矩阵表示为: Step2.2、编码器的多头注意力层将查询和一组键值对映射到输出;给定一个序列的向量单头注意力将X投影到三个不同的矩阵:Q矩阵为K矩阵为V矩阵为注意力权值是通过计算句子中每个单词的点积注意力得到的,最后的分数是这些值的加权和;Q,K,V=XWQ,XWK,XWV2 其中矩阵是可学习的参数,dk为模型的嵌入层的输出向量的维度大小,该因子是为了调节Q和KT的内积大小,以防止过大的内积经过softmax后向量分布不均匀;softmax使比例值归一化;Step2.3、多头注意力层Multi-Head是由多个注意力层拼接组成;MultiHeadQ,K,V=[Att1,Att2,...,Atth],4Step2.4、前馈神经网络层是由两个线性层串行连接而成,线性层它们具有独立的权重和偏差,而且维度也不相同,能够进一步提取语义信息;Z=layer-normX+MultiHeadX,5FFNZ=ReLUW1Z+b1W2Z+b2,6其中的layer-norm·表示归一化层,FFN表示FeedForwardNetwork层,W1,b1,W2,b2是投影参数,Z表示的是归一化层的输出;Step2.5、在前馈神经网络层之后再使用归一化层得到编码器块的输出oi;然后通过拼接Transformer编码器的输出特征和音节嵌入得到输入的n-gram的预测的共享特征,最后经过多层感知机MLP得到一个向量
全文数据:
权利要求:
百度查询: 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。