首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种中文拼写纠错方法 

申请/专利权人:华东交通大学;温州理工学院

申请日:2024-05-28

公开(公告)日:2024-07-02

公开(公告)号:CN118278394A

主分类号:G06F40/232

分类号:G06F40/232;G06F40/166;G06F40/247;G06F16/335;G06N3/0455;G06N3/08

优先权:

专利状态码:在审-实质审查的生效

法律状态:2024.07.19#实质审查的生效;2024.07.02#公开

摘要:本发明提供一种中文拼写纠错方法,应用于中文拼写纠错系统,所述中文拼写纠错系统包括错误检测模型、错误校正模型。本发明采用将错误位置预测任务、音近错误预测任务和形近错误预测任务等与拼写错误检测密切相关的多任务联合训练的方式,使用错误检测模型去预测和输出拼写错误的位置及类型信息;本发明根据错误检测模型预测的错误类型信息,对错误句子的字符、字音或字形特征分别进行相应的屏蔽,采用选择性屏蔽的方式对拼写错误字符的部分无关信息即对于错误纠正没有帮助的字符特征进行掩码操作,从而迫使错误校正模型在编码过程中更加关注对错误纠正有用的字符特征,本发明能够实现有效的中文拼写纠错。

主权项:1.一种中文拼写纠错方法,其特征在于,应用于中文拼写纠错系统,所述中文拼写纠错系统包括错误检测模型、错误校正模型,所述错误检测模型包括错误位置预测层、音近错误预测层、形近错误预测层,所述方法包括以下步骤:步骤1,利用基于混淆集的敏感字符掩码策略在正确的中文文本上构造含有拼写错误的句子,以形成伪训练样本,利用原始的正确句子和构造的伪训练样本共同对错误校正模型进行预训练;步骤2,在错误校正模型预训练结束后,使用真实的拼写错误训练样本对错误检测模型和错误校正模型进行联合训练,且在对错误校正模型进行训练时,使用随机屏蔽输入句中部分词嵌入信息的训练策略;步骤3,将带有拼写错误的句子通过错误检测模型的嵌入层映射成高维特征向量,再馈送入错误检测模型的编码器中,获得编码后的上下文向量表示,将编码后的上下文向量表示通过错误位置预测层进行错误位置预测任务,输出错误字符位置信息;步骤4,将编码后的上下文向量表示分别通过音近错误预测层和形近错误预测层进行音近错误预测任务和形近错误预测任务,在错误字符位置信息的基础上,预测错误字符是否属于音近错误或形近错误,以输出错误类型信息;步骤5,错误校正模型根据错误检测模型输出的错误字符位置信息及错误类型信息,对错误句子的字符、字音或字形特征分别进行相应的屏蔽,再通过错误校正模型的混合嵌入层映射成混合嵌入向量;步骤6,将混合嵌入向量馈送入错误校正模型的编码器,以学习每个字符的上下文向量表示,并与编码后的上下文向量表示进行后期融合操作,得到融合后的上下文向量表示;步骤7,将融合后的上下文向量表示通过错误校正模型中一个词表大小的正确字符预测层进行正确字符预测,取预测概率最大的字符作为纠正结果输出。

全文数据:

权利要求:

百度查询: 华东交通大学 温州理工学院 一种中文拼写纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。