首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种中文拼写纠错方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华东交通大学;温州理工学院

摘要:本发明提供一种中文拼写纠错方法,应用于中文拼写纠错系统,所述中文拼写纠错系统包括错误检测模型、错误校正模型。本发明采用将错误位置预测任务、音近错误预测任务和形近错误预测任务等与拼写错误检测密切相关的多任务联合训练的方式,使用错误检测模型去预测和输出拼写错误的位置及类型信息;本发明根据错误检测模型预测的错误类型信息,对错误句子的字符、字音或字形特征分别进行相应的屏蔽,采用选择性屏蔽的方式对拼写错误字符的部分无关信息即对于错误纠正没有帮助的字符特征进行掩码操作,从而迫使错误校正模型在编码过程中更加关注对错误纠正有用的字符特征,本发明能够实现有效的中文拼写纠错。

主权项:1.一种中文拼写纠错方法,其特征在于,应用于中文拼写纠错系统,所述中文拼写纠错系统包括错误检测模型、错误校正模型,所述错误检测模型包括错误位置预测层、音近错误预测层、形近错误预测层,所述方法包括以下步骤:步骤1,利用基于混淆集的敏感字符掩码策略在正确的中文文本上构造含有拼写错误的句子,以形成伪训练样本,利用原始的正确句子和构造的伪训练样本共同对错误校正模型进行预训练;步骤2,在错误校正模型预训练结束后,使用真实的拼写错误训练样本对错误检测模型和错误校正模型进行联合训练,且在对错误校正模型进行训练时,使用随机屏蔽输入句中部分词嵌入信息的训练策略;步骤3,将带有拼写错误的句子通过错误检测模型的嵌入层映射成高维特征向量,再馈送入错误检测模型的编码器中,获得编码后的上下文向量表示,将编码后的上下文向量表示通过错误位置预测层进行错误位置预测任务,输出错误字符位置信息;步骤4,将编码后的上下文向量表示分别通过音近错误预测层和形近错误预测层进行音近错误预测任务和形近错误预测任务,在错误字符位置信息的基础上,预测错误字符是否属于音近错误或形近错误,以输出错误类型信息;步骤5,错误校正模型根据错误检测模型输出的错误字符位置信息及错误类型信息,对错误句子的字符、字音或字形特征分别进行相应的屏蔽,再通过错误校正模型的混合嵌入层映射成混合嵌入向量;步骤6,将混合嵌入向量馈送入错误校正模型的编码器,以学习每个字符的上下文向量表示,并与编码后的上下文向量表示进行后期融合操作,得到融合后的上下文向量表示;步骤7,将融合后的上下文向量表示通过错误校正模型中一个词表大小的正确字符预测层进行正确字符预测,取预测概率最大的字符作为纠正结果输出;步骤2中,在对错误校正模型进行训练时,使用随机屏蔽输入句中部分词嵌入信息的训练策略,具体包括:步骤2.1,通过对比输入句子序列和目标句子序列,获得拼写错误字符的位置序列,其中拼写错误字符的位置用1表示,正确字符的位置用0表示,表达式如下: ;其中,表示句子长度;、、、分别表示输入句子序列中第1、2、、个位置的字符;、、、分别表示目标句子中第1、2、、个位置的字符;、、、分别表示第1、2、、个位置的字符的错误信息;步骤2.2,对得到的拼写错误字符的位置序列中值为0的所有位置进行随机不重复采样,采样数量为句子长度的15%,对于被采样的正确字符,使用[MASK]进行替换,然后得到错误校正模型的输入句子序列,表达式如下: ;其中,表示被选中的正确字符;表示未被选中的正确字符;、、、分别表示错误校正模型的输入句子序列中第1、2、、个位置的字符;步骤4具体包括:对于错误检测模型的编码器输出的最后一个隐藏层的状态,分别通过音近错误预测层和形近错误预测层预测每个字符属于音近错误的概率序列和属于形近错误的概率序列,并输出音近错误标签序列和形近错误标签序列,表达式表述如下: ;其中,和是音近错误预测层中可学习的参数,和是形近错误预测层中可学习的参数;、、、分别表示第1、2、、个字符是音近错误的概率;、、、分别表示第1、2、、个字符是形近错误的概率;threshold_t和threshold_s是介于0到1之间的二分类阈值;、、、分别是错误检测模型预测的第1、2、、个字符的音近错误标签值;、、、分别是错误检测模型预测的第1、2、、个字符的形近错误标签值。

全文数据:

权利要求:

百度查询: 华东交通大学 温州理工学院 一种中文拼写纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。