买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆邮电大学
摘要:本发明公开了一种基于预训练语言模型构建的双模块中文拼写纠错方法,通过分离和重构预训练语言模型的内部结构,分别构建了拼写错误检测模块和拼写错误纠错模块。前者通过编码文本的向量表示,计算文本中每一字符的置信度,进而确定错别字的位置。后者结合检测结果进行有针对性的修改,通过提取纠错嵌入向量中的文本特征计算纠错策略的合理性分数,并按照得分最高的策略进行修改,以得到纠错后的文本。本申请具备更快的响应速度和更高的纠错准确率,可应用于中文文本编辑,中文语音识别和光学中文字符识别场景中。
主权项:1.一种基于预训练语言模型构建的双模块中文拼写纠错方法,其特征在于,包括如下步骤:构建模型:使用由多层Transformer编码器堆叠而成的预训练语言模型的内部结构构建包括检测模块和纠错模块在内的双模块中文拼写纠错模型;其中,所述检测模块由前部若干层Transformer编码器构建的检测编码器辅以检测分类器构成;所述纠错模块由剩余的Transformer编码器构建的纠错编码器辅以纠错分类器构成;将待纠错文本输入模型进行词嵌入,获得文本的向量表示;使用检测编码器将所述文本的向量表示进行编码,获取检测任务相关的检测隐藏状态;使用检测分类器基于所述检测隐藏状态计算检测结果;基于所述检测结果计算检测模块的损失值Lossd;将所述文本的向量表示和检测隐藏状态进行融合和归一化处理,获得纠错嵌入向量;使用纠错编码器对所述纠错嵌入向量进行编码,获取纠错任务相关的纠错隐藏状态;将所述纠错隐藏状态和所述检测隐藏状态进行融合和归一化处理,获取最终隐藏状态;使用纠错分类器基于所述最终隐藏状态计算纠错策略的分数;选取得分最高的纠错策略对所述待纠错文本进行修改;基于所述纠错策略的分数计算纠错模块的损失值Lossc;将检测模块的损失值Lossd和纠错模块的损失值Lossc按比例加和后作为全局损失Loss,并通过最小化全局损失来优化所述双模块中文拼写纠错模型,以实现模型训练;加载训练后的模型,将待纠错文本输入模型中,以获得纠错后的文本。
全文数据:
权利要求:
百度查询: 重庆邮电大学 一种基于预训练语言模型构建的双模块中文拼写纠错方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。