买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及一种基于Transformer和多任务学习的中文语法纠错方法,该方法包括以下步骤:步骤A:利用爬虫技术收集Lang‑8网站母语非中文学习者书写语句和对应批改语句,清洗并筛选语句对,组成语料库;步骤B:对语料库中的语句对数据进行预处理;包括去停用词、繁体转简体、以及划分训练集和验证集;步骤C:基于编辑操作集合生成训练样本所需的标签;步骤D:构建基于Transformer和多任务学习的中文语法纠错模型进并采用训练集行训练;步骤E:对完成训练的中文语法纠错模型通过验证集进行验证,根据评价指标评价纠错效果,并利用该模型输入待纠错语句进行纠错。与现有技术相比,本发明具有精确率高、泛化能力强、性能好等优点。
主权项:1.一种基于Transformer和多任务学习的中文语法纠错方法,其特征在于,该方法包括以下步骤:步骤A:利用爬虫技术收集Lang-8网站母语非中文学习者书写语句和对应批改语句,清洗并筛选语句对,组成语料库;步骤B:对语料库中的语句对数据进行预处理;包括去停用词、繁体转简体、以及划分训练集和验证集;步骤C:基于编辑操作集合生成训练样本所需的标签;步骤D:构建基于Transformer和多任务学习的中文语法纠错模型进并采用训练集行训练;步骤E:对完成训练的中文语法纠错模型通过验证集进行验证,根据评价指标评价纠错效果,并利用该模型输入待纠错语句进行纠错;所述的步骤C具体包括以下步骤:步骤C1、将语句对按照字粒度切割成token序列;步骤C2、计算待纠错语句和对应的正确句的token级别编辑距离,得到编辑操作集合;步骤C3、根据编辑操作集合,按照多字、少字、乱序和替换四种语法错误进行分类,对待纠错语句序列中存在的语法错误进行标注,获得错误标签序列。
全文数据:
权利要求:
百度查询: 上海师范大学 一种基于Transformer和多任务学习的中文语法纠错方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。