买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:江西师范大学
摘要:本发明公开了一种基于全词掩码和依存掩码的中文文本的纠错方法,包括以下步骤:步骤S1:采集并构建数据集;步骤S2:构建文本纠错模型,文本纠错模型包括拼写纠错模型和语法纠错模型;步骤S3:将错误句子导入到步骤S2中的拼写纠错模型中,获取拼写纠错后的句子,同时对拼写纠错模型进行训练;步骤S4:将拼写纠错后的句子导入到步骤S2中的语法纠错模型的检测网络中,获得拼写纠错后的句子的语法错误类型,对语法纠错模型进行训练;步骤S5:语法错误类型的句子导入到语法纠错模型中的纠错网络,对获得语法错误类型的句子进行语法纠错,获得语法纠错后的句子。本发明通过引入依存句法分析,从而实现对语句更为精准的纠错。
主权项:1.一种基于全词掩码和依存掩码的中文文本的纠错方法,其特征在于,包括以下步骤:步骤S1:采集并构建数据集,数据集包括若干条错误句子和对应的标注信息,错误句子包括语法错误句子和或拼写错误句子,标注信息包括语法错误类型和或拼写错误类型;步骤S2:构建文本纠错模型,文本纠错模型包括拼写纠错模型和语法纠错模型;步骤S3:将步骤S1中的数据集的错误句子导入到步骤S2中的拼写纠错模型中,获取拼写纠错后的句子,同时对拼写纠错模型进行训练;步骤S4:将步骤S3中拼写纠错后的句子导入到步骤S2中的语法纠错模型的检测网络中,获得拼写纠错后的句子的语法错误类型,同时根据步骤S1中的标注信息的语法错误类型对语法纠错模型进行训练;步骤S5:将步骤S4中的获得语法错误类型的句子导入到语法纠错模型中的纠错网络,纠错网络根据语法错误类型对句子进行语法纠错,获得语法纠错后的句子;步骤S3具体为:步骤S31:采用LTP工具将错误句子拆解成若干词汇,采用自然语言工具包确认词汇间的依存关系,通过BERT模型对词汇进行编码并处理成向量格式,获得拼写纠错词汇向量;步骤S32:将拼写纠错词汇向量导入到拼写纠错模型的全连接层进行检测,获得拼写错误的拼写纠错词汇向量的下标,表示为: 1;式中,表示全连接层的输出的概率值,n表示拼写纠错词汇向量的下标,表示输入的拼写纠错词汇向量,W和b均为全连接层的预置参数;其中,当Y=0时,表示拼写纠错词汇向量对应的词汇未拼写错误,当Y=1时,表示拼写纠错词汇向量对应的词汇拼写错误;步骤S33:拼写纠错模型的BERT模型对步骤S32中检测出拼写错误的拼写纠错词汇向量进行掩码,掩码方式采用依存掩码的方式;步骤S34:拼写纠错模型的BERT模型接着对步骤S33中被掩码的拼写纠错词汇向量进行预测,预测的输出值从预设好的同义词库中选取;步骤S35:拼写纠错模型的BERT模型将纠错好的词汇按顺序排列构成句子;步骤S36:采用交叉熵损失函数计算全连接层和BERT模型的损失,最小化交叉熵损失以优化拼写纠错模型的参数;步骤S4具体为:步骤S41:采用LTP工具将拼写纠错后的句子拆解成若干词汇向量后进入语法纠错模型的检测网络;步骤S42:语法纠错模型的检测网络采用自然语言工具包将纠错后的句子拆解成若干词汇,分析词汇之间的依存关系并以此构建依存信息邻接矩阵图;步骤S43:语法纠错模型的检测网络的BERT模型将词汇编码成语法纠错词汇向量,表示为: (2);其中,表示语法纠错词汇向量,表示输入BERT模型的词汇;步骤S44:导入步骤S42中的依存信息邻接矩阵图和步骤S43中的语法纠错词汇向量进入语法纠错模型的检测网络的GCN网络,获得融合词汇向量,公式如下: (3);其中,表示融合特征向量,A表示依存信息邻接矩阵图,表示语法纠错词汇向量的的隐藏状态,表示GCN网络的参数;步骤S45:连接步骤S44中的融合特征向量和BERT模型的隐藏状态作为CRF模块的输入,获得连接特征向量,表示如下: (4);其中,表示连接特征向量,表示线性函数,表示BERT模型的隐藏状态,表示连接符号;接着,导入连接特征向量进入CRF模块,通过计算整体分数,从而获得语法纠错词汇向量与对应的语法错误类型的概率,通过CRF模块用来预测语法错误类型,表示为: (5); (6);式中,表示整体分数,表示输入的连接特征向量,表示CRF模块预测的语法错误类型,表示为CRF模块的过渡分数,表示CRF模块的发射分数,表示过渡分数矩阵,表示发射分数矩阵,表示CRF模块预测的语法错误类型中的第i个预测错误类型标签,表示CRF模块预测语法错误类型中的第i+1个预测错误类型标签,m表示CRF模块预测的错误类型标签的数量,表示条件概率,表示指数函数,表示任意错误类型标签;步骤S46:根据步骤S1中的标注信息计算CRF模块的损失,最小化损失以更新CRF模块和BERT模型的参数,损失函数如下: (7);式中,Loss表示损失;步骤S5包括:步骤S51:对于步骤S45中预测的语法错误类型为冗余错误类型的句子,语法纠错模型的纠错网络根据标记的错误位置,删除冗余部分;步骤S52:对于步骤S45中预测的语法错误类型为字词缺失错误类型的句子,语法纠错模型的纠错网络将掩码符号[MASK]插入缺失位置,并使用BERT模型以自回归的方式逐个替换[MASK]进行更正;步骤S53:对于步骤S45中预测的语法错误类型为搭配不当错误类型的句子,语法纠错模型的纠错网络分阶段进行处理;第一个阶段,把错字部分替换为[MASK],并使用BERT模型去预测[MASK]内容,取若干个预测到的词为结果替换[MASK],补充到句子中得到若干个候选句子;第二个阶段,句子标注为搭配不当错误类型的词出现在预设的混淆集中,则进行混淆词替换,将混淆集中的混淆词对搭配不当错误类型的词逐一进行替换,然后再通过语法错误纠错模型的检测网络对替换后的预测句子进行预测,计算替换后的词被预测为搭配不当的概率,取混淆集中最小概率值的混淆词记为;若,则为预测词,选取若干个预测词组成预测句子;式中,表示判定为搭配不当错误类型的概率,表示搭配不当类型的词,表示预设的阈值;综合比较两个阶段输出的预测句子,选取出可能性最大的预测句子作为结果输出;步骤S54:对于步骤S45中预测的语法错误类型为字词乱序错误类型的句子,语法纠错模型的纠错网络根据通过语法错误纠错模型的检测网络标记出的乱序位置,将乱序的部分颠倒顺序进行纠错。
全文数据:
权利要求:
百度查询: 江西师范大学 一种基于全词掩码和依存掩码的中文文本的纠错方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。