【发明授权】基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7

导航：龙图腾网> 最新专利技术> 基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7

申请/专利权人：昆明理工大学

申请日：2022-04-11

公开（公告）日：2024-06-21

公开（公告）号：CN114676709B

主分类号：G06F40/58

分类号：G06F40/58;G06F40/284;G06F40/268;G06F40/253;G06N3/0455;G06N3/08

优先权：

专利状态码：有效-授权

法律状态：2024.06.21#授权;2022.07.15#实质审查的生效;2022.06.28#公开

摘要：本发明涉及基于零代词补齐的汉越数据增强方法，属于自然语言处理技术领域。本发明包括步骤：构建带零代词标签的汉语、越南语单语篇章数据集；使用Transformer共享编码端融合正文和上下文，再将隐状态输入CRF模型中得到代词缺失位置标记；利用代词缺失位置收集词汇、句法、上下文特征集，再将零代词特征集作为外部知识辅助零代词预测分类任务。最后得到补齐代词的汉语、越南语单语数据。本发明所提汉越数据增强方法，通过补齐省略的代词，补齐句法成分，有效提升汉越平行数据集的质量。此外，借助增强的语料，汉越机器翻译性能得到了一定的改善。

主权项：1.基于零代词补齐的汉越数据增强方法，其特征在于：所述方法的具体步骤如下：Step1、数据收集处理：通过网络爬虫技术爬取收集并构建英汉、英越双语平行数据，利用矩阵对齐方法找出汉语、越南语中缺失的代词，并利用英语平行语料中的对应代词，将汉语、越南语中缺失的代词标注补齐，得到零代词信息标注的汉语、越南语单语数据集；缺失的代词即为零代词；Step2、进行零代词补齐，零代词补齐包括零代词位置预测、零代词特征集生成和零代词预测，把预测出的零代词放入源句子进行零代词补齐从而对汉越数据进行增强：零代词位置预测通过词嵌入和位置嵌入分别对正文和上下文进行特征编码，利用Transformer编码器提取特征，其中正文和上下文共享编码端以减少参数；利用上下文注意力机制对正文表征约束，将Transformer编码器得到隐状态输入CRF模型中进行标注，得到零代词位置信息；零代词特征集生成是利用零代词位置信息生成与零代词相关的词汇、句法、上下文特征集合；零代词预测是重新利用Transformer编码端对正文进行编码，同时与零代词特征集做注意力计算，以提升零代词信息表征，最后将注意力计算后的输入表征通过一个多分类器模块，经过线性变换和归一个处理得到分类结果，即零代词预测结果；所述Step2中，零代词位置预测包括：Step2.1、零代词位置预测的任务是找到句子中是否缺失代词，并将代词缺失位置标注出来；设X＝x1,..,xk,..,xK表示K个源句子组成的源语言文档，表示第k个源句子包含I个词；使用transformer编码模块对正文的特征嵌入进行编码；为了能够利用序列的顺序，在编码模块中将位置编码添加到词嵌入表征中，位置编码与词嵌入表征具有相同的维数，编码模块核心是自注意力机制，多头注意力模块计算时需要将输入表征分别处理成Q、K、V，具体如下：E＝Ex1,x2,...,xI1E＝Q＝K＝V2 其中，E为正文中当前句的词嵌入表征，d表示正文中当前句的词向量维度，Q,K,V∈RI×d分别为查询向量、键向量、值向量，为缩放因子；多头注意力通过不同的线性投影将Q、K、V进行h次线性投影，然后h次投影并行执行缩放点积注意，最后将这些注意结果串联起来再次获得新的表示；headi＝AttentionQWiQ,KWiK,VWiV4H＝MultiHeadQ,K,V＝Concathead1,head2,…,headhWO5其中，H∈RI×d为正文编码后的输出；WO∈Rd×d为训练的参数，dk∈dh；利用上下文编码模块进行上下文特征编码：与标准的Transformer编码器不同的是，上下文编码模块多了一个多头上下文注意力子层来融合上下文信息；为了减少计算成本，采用共享编码器的结构；编码器先编码当前句上下文，上下文注意力子层不参与此过程，第二步编码当前句时，当前句自注意力子层和上下文注意力子层同时参与计算利用上下文信息约束正文中当前句的表征，上下文注意力子层的输入KCon，VCon来自于上下文的编码输出，Q来自于当前句的注意力子层的输出，当前句的编码输出作为隐状态进行下一步计算；H2＝AttentionQ,KCon,VCon6其中H2表示上下文注意力模块输出隐状态；再将进行一个前馈神经网络的变换，最后将隐状态表征放入到CRF模型中，进行一个序列标注的工作，最后得到一个标签序列Y＝y1,y2,y3,...,yt,...,yn，其中每个yt对应着每个单词xt的标签；单词的标签一共只有两种L＝{D,N}，分别表示缺失代词和没有缺失代词，将代词缺失的后一个单词位置标注为D，其他单词都标注为N，最终将预测的结果和真实的标签计算损失；所述Step2中，零代词特征集生成包括：Step2.2、检测到零代词的位置信息后，根据这个位置信息，挖掘对零代词预测有用的特征：根据零代词的位置信息，从词汇、句法、上下文方面来提取零代词特征集，零代词特征集包括词汇特征：标签词p、p前后各一个词、p前后各一个代词；句法特征：当前句s的主语、谓语、宾语；上下文特征：上一句s-1的主语和宾语、下一句s+1的主语和宾语；所述Step2中，零代词预测包括：Step2.3、进行零代词预测，确定在代词缺失位置具体该补齐哪个代词，把预测出的零代词放入源句子进行零代词补齐从而对汉越数据进行增强：训练一个多分类器，其中每一个类代表着一个可能缺失的代词；使用transformer编码端来对当前句进行表征，与传统transformer编码端不一样的是，增加了一个代词注意力模块，通过挖掘对零代词分类有用的特征，来使输入隐状态更好的表示出零代词信息；零代词注意力模块的KDP、VDP来自于零代词特征集的编码输入，QDP来自于正文多头注意力子层的输出，再将零代词注意力模块的输出进行下一步分类计算；HDP＝AttentionQDP,KDP,VDP7其中HDP表示零代词注意力模块的输出；在多分类模块，将编码模块的输入隐状态通过一个线性变化，再进行归一化计算，得到最后的分类结果，即零代词预测结果，把预测出的零代词放入源句子进行零代词补齐从而对汉越数据进行增强；y＝softmaxσHW1+b1W2+b28其中H表示编码端输入隐状态，W1，W2，b1，b2为模型参数，σ为sigmoid函数；最终将预测的结果和真实的标签计算损失；损失函数为：其中N表示训练样例数，C表示类别标签数，表示模型预测类别c的概率。

全文数据：

权利要求：

百度查询：昆明理工大学基于零代词补齐的汉越数据增强方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种物联网设备自动化测试系统、方法、存储介质及设备_成都秦川物联网科技股份有限公司_202210603550.7

下一篇：一种柔性低密度烧蚀防热涂料及其制备方法_上海箬宇新材料有限公司_202310043235.8

相关技术

一种物联网设备自动化测试系统、方法、存储介质及设备_成都秦川物联网科技股份有限公司_202210603550.7

一种柔性低密度烧蚀防热涂料及其制备方法_上海箬宇新材料有限公司_202310043235.8

一种飞机弹射座椅摇臂的快速成形方法_国营芜湖机械厂_202310163802.3

一种防治猪繁殖与呼吸道综合征的复方中药可溶性粉的制备方法和应用_广东海大集团股份有限公司_202211577992.5

一种4-环己基-3-(三氟甲基)苯甲醇的制备方法_浙江工业大学_202211411775.9

一种弯管内壁自动行走激光堆焊增材设备_广东博盈特焊技术股份有限公司_202410354772.9

轮胎磨损监测方法及系统_摩登汽车有限公司_202210397941.8

一种齿轮加工成型设备_兴化金马鹿机电科技有限公司_202410356685.7

一种用于化纤在线取丝饼自动暂存的中转机器人_安歌科技(集团)股份有限公司_202210543752.7

老旧小区改造电梯加装用施工吊篮_四川华奥电梯有限公司_202210866326.7

模型轻量化方法、装置、计算机设备、存储介质及程序产品_苏州元脑智能科技有限公司_202410372700.7

一种间隔条浇灌胶质的装置_河南金拇指防水工程有限公司_202210302950.4

数据相关技术

分组数据汇聚协议协议数据单元预处理_摩托罗拉移动有限责任公司_201880021693.9

基于数据分割的图像数据校验方法_合肥工业大学_202410355050.5

大数据的人体数据监测方法装置_深圳市维康致远科技有限公司_202311133797.8

数据采集装置_北京字跳网络技术有限公司_202211652857.2

点云数据发送方法、点云数据发送装置、点云数据接收方法及点云数据接收装置_LG电子株式会社_202280075083.3

三维数据编码方法、三维数据解码方法、三维数据编码装置及三维数据解码装置_松下电器(美国)知识产权公司_202180062530.7

用于数据统计分析的数据存储方法、数据查询方法及装置_支付宝(杭州)信息技术有限公司_202410424952.X

数据聚合方法及装置_湖南快乐阳光互动娱乐传媒有限公司_202210422108.4

数据传输控制_上海诺基亚贝尔股份有限公司_201880100530.X

机器频谱数据压缩_计算系统有限公司_202010604893.6

补齐相关技术

一种油气生产智能物联网数据自清洗与修正补齐方法_中国石油大学(北京)_202410470465.7

发动机万有特性数据补齐方法、装置、设备及存储介质_清华大学_202410198952.2

填空字补齐系统_库比克设计工作室有限责任公司_202110350596.8

一种自动检测补齐依赖包仓库源维护方法及系统_麒麟软件有限公司_202410088232.0

一种物联网智能燃气表掉电数据补齐存储方法_成都秦川物联网科技股份有限公司_202010664135.3

点云补齐方法和电子设备_法奥意威(苏州)机器人系统有限公司_202410406027.4

小区用水总数据补齐方法及装置、终端设备、存储介质_清华大学_202410293833.5

一种地震数据空道补齐处理方法、装置、电子设备及介质_中国石油化工股份有限公司_202211297980.7

一种基于量测补齐的有源配电网状态估计方法及装置_国网信息通信产业集团有限公司_202310770219.9

基于固件与芯片微内核的占位数据补齐方法及系统_四川云海芯科微电子科技有限公司_202410070964.7

增强相关技术

利用个人移动系统的增强现实增强的游戏性_斯纳普公司_202280073152.7

图像增强模型的训练、图像增强方法、装置及电子设备_苏州市科远软件技术开发有限公司_202110567235.9

增强的卡紧配合批头设计_阿久曼特知识产权有限公司_202080010998.7

大型船舶增强现实航行系统_江苏扬子鑫福造船有限公司_202323331104.4

自适应图像信号增强系统_广州市壳佰诚科技有限公司_202410354334.2

散热增强型电容器_厦门法拉电子股份有限公司_202410402463.4

一种基于改进直方图均衡化和增强高通滤波的红外图像增强方法_上海悠络客电子科技股份有限公司_202111514444.3

一种基于自增强理论的站用储氢气瓶的自增强工艺_浙江工业大学_202210232407.1

经由增强现实（AR）传递的地图特征_移动眼视觉科技有限公司_202280075298.5

一种叠合板表面增强型结构_福州泽祉科技有限公司_202323298010.1

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

【发明授权】基于零代词补齐的汉越数据增强方法_昆明理工大学_202210374347.7

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务