利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法

导航：龙图腾网> 最新专利技术> 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：昆明理工大学

摘要：本发明涉及利用局部多头注意力机制融合词‑音节对的泰文和缅甸文词性标注方法，属自然语言处理领域。本发明包括：预处理泰文或者缅甸文文本数据集；使用窗口化的方式选择词语‑音节对特征作为模型输入；之后利用局部多头注意力机制从词语‑音节对序列中学习上下文特征；最后通过条件随机场建模词性依赖关系，进行词性标签的预测。针对泰文和缅甸文词性标注数据集的实验结果表明，与当前最优模型相比，本发明将音节作为词语的形态学特征进行融入，有助于学习未知词的上下文特征，缓解未知词错误标注对模型性能的影响。并且本发明采用局部多头自注意力机制可以使模型获取更丰富的局部依赖特征，在词性标注任务中取得更好的标注结果。

主权项：1.利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法，其特征在于：所述方法的具体步骤如下：Step1、对泰文文本数据集或者缅甸文数据集进行文本预处理，通过对句子中的每个词语进行音节切分找到词语中潜在的词缀信息，从而将单词序列扩展为词-音节对的序列；Step2、通过滑动窗口的方式从经过Step1预处理过的数据中依次得到包含n个词语-音节对信息的输入，利用局部多头注意力机制对词语-音节对进行特征编码，然后通过拼接Transformer编码器的输出特征和音节嵌入得到输入的n-gram的预测的共享特征；Step3、最后通过条件随机场建模词性依赖关系，进行词性标签的预测；所述步骤Step1的具体步骤为：Step1.1、根据泰文文本中用“\n”划分的词汇，针对训练集构建词语字母表和词性标签字母表；Step1.2、调用泰文或者缅甸文音节切分器对文本中的词语进行音节切分，构建音节字母表；Step1.3、随后，对于每一个词语，为它分配它所包含的音节；其中对于音节，只截取组成每个单词的前缀音节和后缀音节作为输入；如果存在某些由单音节构成的单词，那么将对该音节进行”PAD”操作作为补充，使输入的音节向量完整；所述步骤Step2的具体步骤如下：Step2.1、编码层将n-gram的单词嵌入和它相对应的音节嵌入的拼接作为编码器的输入，输入的n-gram矩阵表示为： Step2.2、编码器的多头注意力层将查询和一组键值对映射到输出；给定一个序列的向量单头注意力将X投影到三个不同的矩阵：Q矩阵为K矩阵为V矩阵为注意力权值是通过计算句子中每个单词的点积注意力得到的，最后的分数是这些值的加权和；Q,K,V＝XWQ,XWK,XWV2 其中矩阵是可学习的参数，dk为模型的嵌入层的输出向量的维度大小，该因子是为了调节Q和KT的内积大小，以防止过大的内积经过softmax后向量分布不均匀；softmax使比例值归一化；Step2.3、多头注意力层Multi-Head是由多个注意力层拼接组成；MultiHeadQ,K,V＝[Att1,Att2,...,Atth]，4Step2.4、前馈神经网络层是由两个线性层串行连接而成，线性层它们具有独立的权重和偏差，而且维度也不相同，能够进一步提取语义信息；Z＝layer-normX+MultiHeadX，5FFNZ＝ReLUW1Z+b1W2Z+b2，6其中的layer-norm·表示归一化层，FFN表示FeedForwardNetwork层，W1,b1,W2,b2是投影参数，Z表示的是归一化层的输出；Step2.5、在前馈神经网络层之后再使用归一化层得到编码器块的输出oi；然后通过拼接Transformer编码器的输出特征和音节嵌入得到输入的n-gram的预测的共享特征，最后经过多层感知机MLP得到一个向量

全文数据：

权利要求：

百度查询：昆明理工大学利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：光检测装置

下一篇：情感分类模型训练方法、系统、情感分类方法及系统

相关技术

光检测装置

情感分类模型训练方法、系统、情感分类方法及系统

一种矿山采空区顶板离层测量装置及其测量方法

一种电网高影响天气特征与模式识别方法及系统

适用于不同功能空间声场控制的音频处理系统及方法

为牵引电池充电的充电电路和方法、电动车辆

路径规划方法、系统、设备及计算机可读存储介质

一种炉头自动生产线及其工艺

一种用于多弯曲半径的数控弯曲连接装置及使用方法

一种低硬度彩色天然橡胶材料及其制备方法

一种膨化食品加工用粉碎装置

一种玻璃瓶裂纹检测装置

机制相关技术

一种判别滑坡变形机制的方法_中国电建集团成都勘测设计研究院有限公司_202411037633.X

一种分子泵停机制动方法_清正源华(北京)科技有限公司_202411058272.7

一种电机制造用充磁装置_上海虎啸电动工具有限公司_202420473115.1

一种机制炭烟气排放装置_楚雄炭语科技有限公司_202420628504.7

一种混凝土用机制砂清洗装置_烟台永汇通建材有限公司_202420570883.9

一种机制砂生产用喂料机_高安知恩建材有限公司_202420536594.7

NR-U中的SSB发送机制_交互数字专利控股公司_202411347945.0

一种机制砂除粉装置_井陉县德跃再生资源利用有限公司_202323546388.9

具有回音消除机制的音频处理装置及方法_星宸科技股份有限公司_202210954034.9

一种验布机制动机构_浙江嘉浩科技发展有限公司_202420577182.8

缅甸相关技术

融合预训练模型的端到端缅甸语文本图像识别方法及装置_昆明理工大学_202410803820.8

一种机顶盒显示缅甸文的方法_杭州国芯科技股份有限公司_202210088977.8

基于RPA技术检测缅甸蟒的引物探针组合、试剂盒及方法_上海海洋大学_202311710140.3

基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置_小语智能信息科技(云南)有限公司_202311220038.5

缅甸语语音识别纠错方法与装置_昆明理工大学_202311148154.0

基于缅甸语字符簇特征的缅甸语文本图像识别方法及装置_小语智能信息科技(云南)有限公司_202311220038.5

融合双重注意力机制的缅甸语图像文本识别方法及装置_小语智能信息科技(云南)有限公司_202211242041.2

一种促进缅甸树萝卜扦插生根的方法_中国科学院西双版纳热带植物园_202211248374.6

融合双重注意力机制的缅甸语图像文本识别方法及装置_小语智能信息科技(云南)有限公司_202211242041.2

利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法_昆明理工大学_202111078804.X

泰文相关技术

一种卧式文丘里干法脱硫装置_浙江菲达环保科技股份有限公司_202420196106.2

密文分级单跳代理重加密方法_上海交通大学_202310544003.0

一种三文鱼捞汁海鲜配方及制备_四川美沿远洋食品有限公司_202411201018.8

温压补偿式RW文丘里式流量计_安为机电设备制造(上海)有限公司_202420699644.3

一种文丘里水雾喷雾头及控制方法_东莞市友美科技有限公司_202410991053.8

基于计算机视觉的文旅照明展示效果评估方法及系统_良业科技集团股份有限公司_202411448244.6

基于文旅绿色智慧照明能耗预测方法及系统_良业科技集团股份有限公司_202411448243.1

基于文丘里的处理氨氮废水的生产系统_青岛科技大学_202411154208.9

一种文丘里阀用阀体圆度检测装置_上海智全控制设备有限公司_202420766047.8

一种高密封性文丘里阀_上海智全控制设备有限公司_202420740884.3

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务