买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
摘要:本发明公开了文本纠错的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对待纠错文本进行纠错,输出待纠错文本对应的标准文本,其中纠错模型是经过训练的基于注意力的序列到序列模型。该实施方式利用训练的基于注意力的序列到序列模型对文本进行纠错,减少了计算的复杂度,提高了文本纠错的准确率。
主权项:1.一种文本纠错的方法,其特征在于,包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型,包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层,通过嵌入层将所述待纠错文本的分词转化为词向量,词向量的维度由训练纠错模型的训练集中所有分词的个数确定;将词向量经过前向编码层和后向编码层进行编码,将编码结果合并为中间向量,以及将前向编码层的编码结果和后向编码层的编码结果通过注意力机制处理,得到有用信息,最终将中间向量和有用信息作为解析层的输入,得到输出向量,通过转换层处理输出向量,得到概率最大的词;其中,通过前向编码层和后向编码层,既考虑当前词与前面词的关系,又考虑当前词与后面词的关系。
全文数据:文本纠错的方法和装置技术领域本发明涉及计算机技术领域,尤其涉及一种文本纠错的方法和装置。背景技术近年来,随着信息技术的不断创新和进步,智能客服机器人凭借其不需要培训、可以长时间连续工作和不需要人力成本等优势,在客服行业逐渐代替了人工客服。智能客服机器人的核心技术是对用户的输入进行预处理,然后对预处理结果进行意图识别分类,进而根据分类的结果进行应答。预处理过程中的文本纠错环节非常重要。如果不对用户的输入进行纠错,会影响意图识别准确率,最终会导致智能客服机器人应答错误。现有技术是基于语言模型进行文本纠错的,即基于词与词之间的出现概率计算句子的概率。假设句子s是由k个词组成的,即s=W1,W2,…,Wk,其中W1,W2,…,Wk为构成句子s的词,则句子s的概率ps可以表示为:ps=pW1,W2,…,Wk=pW1pW2|W1…pWk|W1,W2,…,Wk-1其中,Wk表示当前词,W1,W2,…,Wk-1表示当前词之前的词。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:一、现有技术基于语言模型进行文本纠错的方法中,语言模型只考虑当前词之前的词语,没有考虑当前词后面的词语;二、现有技术文本纠错的方法采用的语言模型存在模型复杂计算量大的问题,以N-Gram模型大词汇连续语音识别中常用的一种语言模型为例,假设词表的大小为100000,那么N-Gram模型的参数数量就达到100000N,N越大,模型越准确,但是模型也越复杂计算量越大。发明内容有鉴于此,本发明实施例提供一种文本纠错的方法和装置,能够减少计算的复杂度,提高文本纠错的准确率。为实现上述目的,根据本发明实施例的一个方面,提供了一种文本纠错的方法。本发明实施例的一种文本纠错的方法包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型。可选地,在根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本之前,所述方法还包括:获取第一样本集和第二样本集,所述第一样本集包含至少一个标准文本,所述第二样本集包含与所述标准样本对应的错误文本;利用所述第一样本集和所述第二样本集构建训练样本集;对所述训练样本集进行训练,以得到所述纠错模型,所述纠错模型输入的是所述训练样本集的错误文本,输出的是所述训练样本集的标准文本。可选地,获取第一样本集和第二样本集包括:获取第一样本集;对所述第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从所述分词对应的替换集中选出预设个数的替换词;根据所述替换词对所述标准文本进行随机替换生成错误文本,然后利用所述错误文本构成所述第二样本集。可选地,所述预设的规则包括以下各项中的至少一项:相同音规则、模糊音规则和形似词规则。可选地,所述经过训练的基于注意力的序列到序列模型包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。可选地,所述前向编码层、所述后向编码层和所述解码层皆包括长短时记忆网络。为实现上述目的,根据本发明实施例的另一方面,提供了一种文本纠错的装置。本发明实施例的一种文本纠错的装置,包括:获取模块,用于根据文本纠错需求,获取待纠错文本;纠错模块,用于根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型。可选地,所述获取模块还用于:获取第一样本集和第二样本集,所述第一样本集包含至少一个标准文本,所述第二样本集包含与所述标准样本对应的错误文本;利用所述第一样本集和所述第二样本集构建训练样本集;对所述训练样本集进行训练,以得到所述纠错模型,所述纠错模型输入的是所述训练样本集的错误文本,输出的是所述训练样本集的标准文本。可选地,所述获取模块还用于:获取第一样本集;对所述第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从所述分词对应的替换集中选出预设个数的替换词;根据所述替换词对所述标准文本进行随机替换生成错误文本,然后利用所述错误文本构成所述第二样本集。可选地,所述预设的规则包括以下各项中的至少一项:相同音规则、模糊音规则和形似词规则。可选地,所述经过训练的基于注意力的序列到序列模型包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。可选地,所述前向编码层、所述后向编码层和所述解码层皆包括长短时记忆网络。为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。本发明实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本发明实施例的文本纠错的方法。为实现上述目的,根据本发明实施例的又一方面,提供了一种计算机可读介质。本发明实施例的一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本发明实施例的文本纠错的方法。上述发明中的一个实施例具有如下优点或有益效果:能够利用训练的基于注意力的序列到序列模型对文本进行纠错,减少了计算的复杂度,提高了文本纠错的准确率;本发明实施例中对第一样本集和第二样本集组成的训练样本集进行训练,以获得纠错模型,从而可以利用海量的样本集数据构建纠错模型,提高了纠错模型的准确度;本发明实施例中第二样本集中的错误文本是根据第一样本集中的标准文本生成的,从而可以建立错误文本及其对应的标准文本的关系,进一步提升了纠错模型的准确度;本发明实施例中从相同音规则、模糊音规则和形似词规则多个角度构建每个分词的替换集,从而可以综合考虑多种情形下分词的替换词;本发明实施例中的纠错模型中包括:前向编码层和后向编码层,从而可以达到即考虑了当前词与前面词的关系,也考虑了当前词与后面词的关系的效果;本发明实施例中的纠错模型中包括:注意力机制,从而可以在产生每一个输出的时候,能够做到充分利用输入序列携带的信息,找到输入序列中显著的与输出相关的有用信息,提高输出的质量,从而提高纠错模型的准确度;本发明实施例中前向编码层、后向编码层和解码层都可以包括长短时记忆网络,从而可以解决训练和识别过程中梯度消失的问题,提高纠错模型的准确度,提高输出结果的准确率。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本发明,不构成对本发明的不当限定。其中:图1是根据本发明实施例的文本纠错的方法的主要步骤的示意图;图2是根据本发明实施例的文本纠错的方法的纠错模型的示意图;图3是根据本发明实施例的文本纠错的方法的训练纠错模型的主要流程的示意图;图4是根据本发明实施例的文本纠错的装置的主要模块的示意图;图5是本发明实施例可以应用于其中的示例性系统架构图;图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本发明实施例的文本纠错的方法的主要步骤的示意图,如图1所示,本发明实施例的文本纠错的方法的主要步骤可以包括:步骤S101:根据文本纠错需求,获取待纠错文本。在该步骤中,当接收到文本纠错请求时,获取请求中的待纠错文本。待纠错文本是指语句有问题的错误文本,例如,错误的词语组成、错误的语句等。待纠错文本可以是中文文本数据、也可以是其他文本数据,本发明对此不作限定。待纠错文本可以是用户输入的文字文本数据也可以是用户通过语音输入的语音数据,若是语音数据,首先将语音数据转化为文字文本数据,当然本发明的待纠错文本也可以是其他形式的数据,本发明对此不作限定。步骤S102:根据纠错模型对待纠错文本进行纠错,输出待纠错文本对应的标准文本。其中,纠错模型是经过训练的基于注意力的序列到序列模型。本步骤中,将待纠错文本输入训练好的纠错模型中,然后获取到待纠错文本对应的标准文本。标准文本是指能体现真实意图的正确的文本数据,例如,以智能客服为例,用户输入待纠错文本“支持获到付款吗”,智能客服将用户输入的文本传输到纠错模型中,会得到其对应的标准文本“支持货到付款吗”,因此智能客服就能获取用户的真实意图,进而做出应答。本发明实施例中,在根据纠错模型对待纠错文本进行纠错,输出待纠错文本对应的标准文本之前,文本纠错的方法还可以包括:获取第一样本集和第二样本集,第一样本集可以包含至少一个标准文本,第二样本集可以包含与标准样本对应的错误文本;利用第一样本集和第二样本集构建训练样本集;对训练样本集进行训练,以得到纠错模型,纠错模型输入的是训练样本集的错误文本,输出的是训练样本集的标准文本。本实施例中,第一样本集和第二样本集用于生成训练样本集,然后利用训练样本集训练纠错模型。以某应用平台为例,第一样本集可以是平台维护的用户常见问题,这些经过清洗审核的问题属于高质量的文本,不包含错误的词。第二样本集可以是与高质量的用户问题对应的包含错误词的问题。经过长时间的统计与积累,平台维护的常见问题属于海量数据,因此提高了模型的准确性。本发明实施例中,获取第一样本集和第二样本集可以包括:获取第一样本集;对第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从分词对应的替换集中选出预设个数的替换词;根据替换词对标准文本进行随机替换生成错误文本,然后利用错误文本构成所述第二样本集。在该实施例中,可以采用爬虫技术爬虫技术是一种按照一定的规则,自动的抓取互联网信息的程序或者脚本的技术,已被广泛应用于互联网领域抓取第一样本集,也可以采用其他方法获取第一样本集,本发明对此不作限定。为了便于理解,假设“包邮吗”是第一样本集中的标准文本,首先对“包邮吗”进行分词处理得到“包”、“邮”和“吗”三个分词,分别生成这三个词的替换集,设定“包”的预设替换个数是5个,“邮”的预设替换个数是3个,“吗”的预设替换个数是2个,那么从“包”的替换集中随机选取5个替换词,从“邮”的替换集中随机选取3个替换词,从“吗”的替换集中随机选取2个替换词,最后利用选取的替换词对标准文本“包邮吗”进行替换,得到其对应的30个错误文本。因此,一个标准文本可以对应多个错误文本,每一个标准文本和一个错误文本组成了纠错对,这样标准文本“包邮吗”和其对应的30个错误文本可以组成30个纠错对。在该实施例中,对第一样本集中的所有标准文件进行分词处理,可以得到多个字或词,然后计算每个字和词对应的替换集,之后根据预设的个数选取每个字和词的替换词,然后对标准文本进行随机替换生成其对应的错误文本,这些所有的错误文本组成了第二样本集。本发明实施例中,预设的规则可以包括以下各项中的至少一项:相同音规则、模糊音规则和形似词规则。相同音规则是指发音相同的词,以中文为例,“货”对应的替换词可以是“获”,“优惠”对应的替换词可以是“幽会”,以英文为例,“see”对应的替换词可以是“sea”。模糊音规则是指发音相似的词,以中文为例,“zh”对应的模糊音可以为“z”,“ch”对应的模糊音可以为“c”,“sh”对应的模糊音可以为“s”,“ang”对应的模糊音可以为“an”,“eng”对应的模糊音可以为“en”,“ing”对应的模糊音可以为“in”,“n”对应的模糊音可以为“l”等等,因此“只”对应的替换词可以是“滋”,“知道”对应的替换词可以是“资道”,以英文为例“sea”对应的替换词可以是“she”。形似词规则是指词语的文本表示相似,以中文为例,“已”对应的替换词可以是“己”,“大”对应的替换词可以是“太”,以英文为例,“and”对应的替换词可以是“aid”,“new”对应的替换词可以是“now”。在该实施例中,以中文为例,对于相同音和模糊音规则,可以统计GB2312GB2312是基于1980年发布的《信息交换用汉字编码字符集基本集》,是中文信息处理的中国国家标准,是强制执行的中文编码标准中的一级汉字和二级汉字,得到同音词及模糊音词,对于形似词规则,可以统计GB2312标准中的一级汉字和二级汉字的点阵字库,统计点阵中的相似度,若两个词之间的相似度大于阈值,那么它们是字形相似的词。点阵字库是把每一个汉字都分成16×16或24×24个点,然后用每个点的虚实来表示汉字的轮廓,用来作为显示字库使用。本发明实施例中,经过训练的基于注意力的序列到序列模型可以包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。图2是根据本发明实施例的文本纠错的方法的纠错模型的示意图。如图2所示,纠错模型可以包括:嵌入层Embed层、前向编码层FOREncoder层、后向编码层BACKEncoder层、注意力机制Attention机制、解码层Decoder层和转换层Softmax函数。纠错模型中的FOREncoder层和BACKEncoder层可以达到即考虑当前词与前面词的关系,也考虑当前词与后面词的关系的效果。Attention机制是深度学习中的一种模型,在产生输出的时候会产生一个注意力范围,表示接下来输出的时候要重点关注输入序列中的哪些部分,然后根据关注的部分来产生下一个输出,这样在产生每一个输出的时候,能够做到充分利用输入序列携带的信息,找到输入序列中显著的与输出相关的有用信息,提高输出的质量,从而提高识别模型的精度。在图2所示的纠错模型中,A、B和C是模型的输入,在本发明中是指对待纠错文本进行分词处理后得到的多个分词。然后,经过Embed层将分词转化为词向量,其中词向量的维度一般是由第一样本集中所有分词的个数决定的,例如对第一样本集中所有的标准文本进行分词处理,得到多个分词,去除分词中的重复分词,然后对剩下的分词从1开始编码,编码的最大数字可以作为词向量的维度,当然本发明中也可以根据具体场景设定词向量的维度,对此不作限定。接着,将转化的词向量经过FOREncoder层和BACKEncoder层进行编码。最后将FOREncoder层和BACKEncoder层的编码结果合并为中间向量S。在Decoder层,将中间向量S和Attention机制的输出作为输入进行解析,得到输出向量output,然后通过转换层的Softmax函数计算得到概率最大的词X和Y。另外,该模型中的start为特征标识,对应输出的开始,不对应输出的词,仅仅是一个占位符,end也为特征标识,对应输出的结束,也仅仅是一个占位符。本发明实施例中,前向编码层、后向编码层和解码层都可以包括长短时记忆网络。长短时记忆网络LSTMLongShort-TermMemory是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,本发明实施例中前向编码层、后向编码层和解码层都可以包括长短时记忆网络,从而可以解决训练和识别过程中梯度消失的问题,提高纠错模型的准确度,提高输出结果的准确率。图3是根据本发明实施例的文本纠错的方法的训练纠错模型的主要流程的示意图。如图3所示,本发明实施例的文本纠错的方法的训练纠错模型的主要流程可以包括:步骤S301,获取第一样本集;步骤S302,对获取的第一样本集中的标准文本进行分词处理得到多个分词;步骤S303,按照预设的规则生成每个分词对应的替换集;步骤S304,从分词对应的替换集中选出预设个数的替换词;步骤S305,根据替换词对标准文本进行随机替换生成错误文本;步骤S306,利用所有的错误文本构成第二样本集;步骤S307,利用第一样本集和第二样本集构建训练样本集;步骤S308,对训练样本集进行训练,得到纠错模型。本发明中,可以利用训练的纠错模型对待纠错文本进行纠错,生成其对应的标准文本。根据本发明实施例的文本纠错的技术方案可以看出,能够利用训练的基于注意力的序列到序列模型对文本进行纠错,减少了计算的复杂度,提高了文本纠错的准确率;本发明实施例中对第一样本集和第二样本集组成的训练样本集进行训练,以获得纠错模型,从而可以利用海量的样本集数据构建纠错模型,提高了纠错模型的准确度;本发明实施例中第二样本集中的错误文本是根据第一样本集中的标准文本生成的,从而可以建立错误文本及其对应的标准文本的关系,进一步提升了纠错模型的准确度;本发明实施例中从相同音规则、模糊音规则和形似字规则多个角度构建每个分词的替换集,从而可以综合考虑多种情形下分词的替换词;本发明实施例中的纠错模型中包括:前向编码层和后向编码层,从而可以达到即考虑了当前词与前面词的关系,也考虑了当前词与后面词的关系的效果;本发明实施例中的纠错模型中包括:注意力机制,从而可以在产生每一个输出的时候,能够做到充分利用输入序列携带的信息,找到输入序列中显著的与输出相关的有用信息,提高输出的质量,从而提高纠错模型的准确度;本发明实施例中前向编码层、后向编码层和解码层都可以包括长短时记忆网络,从而可以解决训练和识别过程中梯度消失的问题,提高纠错模型的准确度,提高输出结果的准确率。图4是根据本发明实施例的文本纠错的装置的主要模块的示意图。如图4所示,本发明实施例的文本纠错的装置400主要包括以下模块:获取模块401和纠错模块402。其中,获取模块401可用于根据文本纠错需求,获取待纠错文本。纠错模块402可用于根据纠错模型对待纠错文本进行纠错,输出待纠错文本对应的标准文本。纠错模型是经过训练的基于注意力的序列到序列模型。本发明实施例中,获取模块401还可用于:获取第一样本集和第二样本集,第一样本集可以包含至少一个标准文本,第二样本集可以包含与标准样本对应的错误文本;利用第一样本集和第二样本集构建训练样本集;对训练样本集进行训练,以得到纠错模型,纠错模型输入的是训练样本集的错误文本,输出的是训练样本集的标准文本。本发明实施例中,获取模块401还可用于:获取第一样本集;对第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从分词对应的替换集中选出预设个数的替换词;根据替换词对标准文本进行随机替换生成错误文本,然后利用错误文本构成第二样本集。本发明实施例中,预设的规则可以包括以下各项中的至少一项:相同音规则、模糊音规则和形似字规则。其中,相似音规则可以包括同音字规则和同音词规则。本发明实施例中,经过训练的基于注意力的序列到序列模型可以包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。本发明实施例中,前向编码层、后向编码层和解码层均可以包括长短时记忆网络。从以上描述可以看出,能够利用训练的基于注意力的序列到序列模型对文本进行纠错,减少了计算的复杂度,提高了文本纠错的准确率;本发明实施例中对第一样本集和第二样本集组成的训练样本集进行训练,以获得纠错模型,从而可以利用海量的样本集数据构建纠错模型,提高了纠错模型的准确度;本发明实施例中第二样本集中的错误文本是根据第一样本集中的标准文本生成的,从而可以建立错误文本及其对应的标准文本的关系,进一步提升了纠错模型的准确度;本发明实施例中从相同音规则、模糊音规则和形似字规则多个角度构建每个分词的替换集,从而可以综合考虑多种情形下分词的替换词;本发明实施例中的纠错模型中包括:前向编码层和后向编码层,从而可以达到即考虑了当前词与前面词的关系,也考虑了当前词与后面词的关系的效果;本发明实施例中的纠错模型中包括:注意力机制,从而可以在产生每一个输出的时候,能够做到充分利用输入序列携带的信息,找到输入序列中显著的与输出相关的有用信息,提高输出的质量,从而提高纠错模型的准确度;本发明实施例中前向编码层、后向编码层和解码层都可以包括长短时记忆网络,从而可以解决训练和识别过程中梯度消失的问题,提高纠错模型的准确度,提高输出结果的准确率。图5示出了可以应用本发明实施例的文本纠错的方法或文本纠错的装置的示例性系统架构500。如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等仅为示例。终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器仅为示例。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果例如目标推送信息、产品信息--仅为示例反馈给终端设备。需要说明的是,本发明实施例所提供的文本纠错的方法一般由服务器505执行,相应地,文本纠错的装置一般设置于服务器505中。应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。下面参考图6,其示出了适于用来实现本发明实施例的终端设备的计算机系统600的结构示意图。图6示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。如图6所示,计算机系统600包括中央处理单元CPU601,其可以根据存储在只读存储器ROM602中的程序或者从存储部分608加载到随机访问存储器RAM603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。输入输出IO接口605也连接至总线604。以下部件连接至IO接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管CRT、液晶显示器LCD等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至IO接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和或从可拆卸介质611被安装。在该计算机程序被中央处理单元CPU601执行时,执行本发明的系统中限定的上述功能。需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器RAM、只读存储器ROM、可擦式可编程只读存储器EPROM或闪存、光纤、便携式紧凑磁盘只读存储器CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块和纠错模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“根据文本纠错需求,获取待纠错文本的模块”。作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对待纠错文本进行纠错,输出待纠错文本对应的标准文本。其中,纠错模型是经过训练的基于注意力的序列到序列模型。根据本发明实施例的技术方案,能够利用训练的基于注意力的序列到序列模型对文本进行纠错,减少了计算的复杂度,提高了文本纠错的准确率;本发明实施例中对第一样本集和第二样本集组成的训练样本集进行训练,以获得纠错模型,从而可以利用海量的样本集数据构建纠错模型,提高了纠错模型的准确度;本发明实施例中第二样本集中的错误文本是根据第一样本集中的标准文本生成的,从而可以建立错误文本及其对应的标准文本的关系,进一步提升了纠错模型的准确度;本发明实施例中从相同音规则、模糊音规则和形似字规则多个角度构建每个分词的替换集,从而可以综合考虑多种情形下分词的替换词;本发明实施例中的纠错模型中包括:前向编码层和后向编码层,从而可以达到即考虑了当前词与前面词的关系,也考虑了当前词与后面词的关系的效果;本发明实施例中的纠错模型中包括:注意力机制,从而可以在产生每一个输出的时候,能够做到充分利用输入序列携带的信息,找到输入序列中显著的与输出相关的有用信息,提高输出的质量,从而提高纠错模型的准确度;本发明实施例中前向编码层、后向编码层和解码层都可以包括长短时记忆网络,从而可以解决训练和识别过程中梯度消失的问题,提高纠错模型的准确度,提高输出结果的准确率。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
权利要求:1.一种文本纠错的方法,其特征在于,包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型。2.根据权利要求1所述的方法,其特征在于,在根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本之前,所述方法还包括:获取第一样本集和第二样本集,所述第一样本集包含至少一个标准文本,所述第二样本集包含与所述标准样本对应的错误文本;利用所述第一样本集和所述第二样本集构建训练样本集;对所述训练样本集进行训练,以得到所述纠错模型,所述纠错模型输入的是所述训练样本集的错误文本,输出的是所述训练样本集的标准文本。3.根据权利要求2所述的方法,其特征在于,获取第一样本集和第二样本集包括:获取第一样本集;对所述第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从所述分词对应的替换集中选出预设个数的替换词;根据所述替换词对所述标准文本进行随机替换生成错误文本,然后利用所述错误文本构成所述第二样本集。4.根据权利要求3所述的方法,其特征在于,所述预设的规则包括以下各项中的至少一项:相同音规则、模糊音规则和形似词规则。5.根据权利要求1所述的方法,其特征在于,所述经过训练的基于注意力的序列到序列模型包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。6.根据权利要求5所述的方法,其特征在于,所述前向编码层、所述后向编码层和所述解码层皆包括长短时记忆网络。7.一种文本纠错的装置,其特征在于,包括:获取模块,用于根据文本纠错需求,获取待纠错文本;纠错模块,用于根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型。8.根据权利要求7所述的装置,其特征在于,所述获取模块还用于:获取第一样本集和第二样本集,所述第一样本集包含至少一个标准文本,所述第二样本集包含与所述标准样本对应的错误文本;利用所述第一样本集和所述第二样本集构建训练样本集;对所述训练样本集进行训练,以得到所述纠错模型,所述纠错模型输入的是所述训练样本集的错误文本,输出的是所述训练样本集的标准文本。9.根据权利要求8所述的装置,其特征在于,所述获取模块还用于:获取第一样本集;对所述第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从所述分词对应的替换集中选出预设个数的替换词;根据所述替换词对所述标准文本进行随机替换生成错误文本,然后利用所述错误文本构成所述第二样本集。10.根据权利要求9所述的装置,其特征在于,所述预设的规则包括以下各项中的至少一项:相同音规则、模糊音规则和形似词规则。11.根据权利要求7所述的装置,其特征在于,所述经过训练的基于注意力的序列到序列模型包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。12.根据权利要求11所述的装置,其特征在于,所述前向编码层、所述后向编码层和所述解码层皆包括长短时记忆网络。13.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
百度查询: 北京京东尚科信息技术有限公司 北京京东世纪贸易有限公司 文本纠错的方法和装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。