一种中文拼写纠错方法

导航：龙图腾网> 最新专利技术> 一种中文拼写纠错方法

申请/专利权人：华东交通大学;温州理工学院

申请日：2024-05-28

公开（公告）日：2024-07-02

公开（公告）号：CN118278394A

主分类号：G06F40/232

分类号：G06F40/232;G06F40/166;G06F40/247;G06F16/335;G06N3/0455;G06N3/08

优先权：

专利状态码：在审-实质审查的生效

法律状态：2024.07.19#实质审查的生效;2024.07.02#公开

摘要：本发明提供一种中文拼写纠错方法，应用于中文拼写纠错系统，所述中文拼写纠错系统包括错误检测模型、错误校正模型。本发明采用将错误位置预测任务、音近错误预测任务和形近错误预测任务等与拼写错误检测密切相关的多任务联合训练的方式，使用错误检测模型去预测和输出拼写错误的位置及类型信息；本发明根据错误检测模型预测的错误类型信息，对错误句子的字符、字音或字形特征分别进行相应的屏蔽，采用选择性屏蔽的方式对拼写错误字符的部分无关信息即对于错误纠正没有帮助的字符特征进行掩码操作，从而迫使错误校正模型在编码过程中更加关注对错误纠正有用的字符特征，本发明能够实现有效的中文拼写纠错。

主权项：1.一种中文拼写纠错方法，其特征在于，应用于中文拼写纠错系统，所述中文拼写纠错系统包括错误检测模型、错误校正模型，所述错误检测模型包括错误位置预测层、音近错误预测层、形近错误预测层，所述方法包括以下步骤：步骤1，利用基于混淆集的敏感字符掩码策略在正确的中文文本上构造含有拼写错误的句子，以形成伪训练样本，利用原始的正确句子和构造的伪训练样本共同对错误校正模型进行预训练；步骤2，在错误校正模型预训练结束后，使用真实的拼写错误训练样本对错误检测模型和错误校正模型进行联合训练，且在对错误校正模型进行训练时，使用随机屏蔽输入句中部分词嵌入信息的训练策略；步骤3，将带有拼写错误的句子通过错误检测模型的嵌入层映射成高维特征向量，再馈送入错误检测模型的编码器中，获得编码后的上下文向量表示，将编码后的上下文向量表示通过错误位置预测层进行错误位置预测任务，输出错误字符位置信息；步骤4，将编码后的上下文向量表示分别通过音近错误预测层和形近错误预测层进行音近错误预测任务和形近错误预测任务，在错误字符位置信息的基础上，预测错误字符是否属于音近错误或形近错误，以输出错误类型信息；步骤5，错误校正模型根据错误检测模型输出的错误字符位置信息及错误类型信息，对错误句子的字符、字音或字形特征分别进行相应的屏蔽，再通过错误校正模型的混合嵌入层映射成混合嵌入向量；步骤6，将混合嵌入向量馈送入错误校正模型的编码器，以学习每个字符的上下文向量表示，并与编码后的上下文向量表示进行后期融合操作，得到融合后的上下文向量表示；步骤7，将融合后的上下文向量表示通过错误校正模型中一个词表大小的正确字符预测层进行正确字符预测，取预测概率最大的字符作为纠正结果输出。

全文数据：

权利要求：

百度查询：华东交通大学温州理工学院一种中文拼写纠错方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种用于可更换玩具模型的机械传动装置底座

下一篇：MPCVD新型高功率谐振腔结构及方法

相关技术

一种用于可更换玩具模型的机械传动装置底座

MPCVD新型高功率谐振腔结构及方法

气路模块、供气装置及气路模块的加工方法

基于无监督学习的复合材料纤维信息提取方法、装置和介质

一种DNA纳米机器及其制备方法和应用

一种多用户、多层级、多权限的水文模型协同共享方法

基于多模态融合的学习意图推理方法及系统、程序产品

一种波浪能测试船引水通道结构设计

一种通用管类零件热处理防变形装置

一种组合式阳极

用于调节矿物质含量的产水系统及产水方法

一种自动化不锈钢钢管冷轧成型工艺

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种中文拼写纠错方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务