首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种中文拼写、语法纠错方法、存储介质及设备 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:山东齐鲁壹点传媒有限公司

摘要:本发明属于语言处理技术领域,具体涉及一种中文拼写、语法纠错方法、存储介质及设备,可以实现对输入文本中的拼写错误和语法错误进行检测与纠正。在原有RoBERTa模型只能处理拼写纠错任务的基础上,通过改进添加生成器,实现同时对文本拼写错误、文本语法错误进行纠正,使纠错效率得到明显提升。

主权项:1.一种中文拼写、语法纠错方法,其特征在于,包括以下步骤:S1.利用RoBERTa编码器模型,对输入序列Xx1,x2,..,xn进行编码,得到RoBERTa模型的输出序列Hh1,h2,..,hn,其中,xn为输入序列X第n个位置的token,hn为输出序列H第n个位置的token;S2.在RoBERTa编码器模型输出序列H后添加CNN卷积层,通过卷积核提取编码器输出的局部特征C,获得局部特征张量;通过残差连接,将局部特征张量与编码器输出序列H进行融合,得到融合后的语义表示序列H′;S3.对融合后的语义表示序列H′进行最大池化操作,得到一个固定长度的表示向量V;S4.将表示向量V传入全连接层,得到目标序列长度的预测分布;S5.将编码器输出与目标词y一同输入到解码器模块,解码器结合注意力机制、指针网络同时实现对拼写错误的更正和语法错误的修复;S51.计算注意力权重at 其中,hi为编码器第i个位置输出,battn为偏置参数,为可学习的权重矩阵,用于将注意力机制中的上下文信息映射到适当的维度,Wh和Ws为可学习的权重矩阵用于将hi和上一个时间步的解码器状态st-1映射到适当的维度;S52.基于at生成上下文向量ct 其中ati表示在t时刻对输入序列第i个位置的注意力权重,Hi表示RoBERTa第i个位置的语义特征;S53.将ct作为输入,更新解码器状态stst=RNN[st-1,ct]S54.通过st和ct,计算生成词的概率分布pvocab,基于H生成输入序列中复制概率分布Pcopypvocab=softmaxLinear[ct,st]Pcopy=sigmoidLinearHS55.用指针机制生成最终分布pp=pcopy*at+1-pcopy*pvocab;计算损失函数Loss,损失函数包括生成损失、指针网络损失和长度预测损失,计算过程如下:计算生成损失:解码器基于vocab的预测分布,与目标词的交叉熵损失,loss1=CrossEntropyLossp,y;其中y为目标词;计算指针网络损失:利用指针网络直接复制原词的损失,计算注意力分布和目标词的交叉熵,loss2=CrossEntropyLosspcopy,y;计算长度预测损失:预测长度与目标长度之间的损失,loss3=L1Lossplen,ltag其中,plen为预测长度,ltag为目标长度;合成损失函数Loss:Loss=w1loss1+w2loss2+w3loss3其中,w1,w2,w3均为损失权重,由模型训练得来。

全文数据:

权利要求:

百度查询: 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。