买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:人民网股份有限公司
摘要:本发明公开了一种基于容错后缀自动机的文本纠错方法及装置,方法包括:根据预设词表构建前缀树;前缀树包括词尾节点;词尾节点记录文本以及文本长度;对待纠错文本基于预设编辑距离,生成对应的容错后缀自动机;基于前缀树进行搜索,确定与容错后缀自动机的交集;交集包括与前缀树的词尾节点匹配时容错后缀自动机的待纠错节点移动轨迹以及纠错长度;确定交集中纠错长度最小的待纠错节点作为纠错修改节点,根据前缀树对待纠错文本进行纠错修改。经预设编辑距离构建的容错后缀自动机和前缀树的交集,可以使预设词表在待纠错文本中的快速模糊匹配、查找定位错误的词语,计算速度快,纠错精准。
主权项:1.一种基于容错后缀自动机的文本纠错方法,其特征在于,方法包括:根据预设词表构建前缀树;所述前缀树包括词尾节点;所述词尾节点记录所述文本以及文本长度;对待纠错文本基于预设编辑距离,生成对应的容错后缀自动机;所述容错后缀自动机包括所述待纠错文本中各字符在多个待纠错节点间的状态转移;基于所述前缀树进行搜索,确定与所述容错后缀自动机的交集;所述交集包括与所述前缀树的词尾节点匹配时所述容错后缀自动机的待纠错节点移动轨迹以及纠错长度;确定所述交集中纠错长度最小的待纠错节点作为纠错修改节点,根据所述前缀树对所述待纠错文本进行纠错修改;所述对待纠错文本基于预设编辑距离,生成对应的容错后缀自动机进一步包括:步骤S1,根据待纠错文本的字符长度初始化第一状态数据,并根据所述第一状态数据构建待纠错节点;将所述第一状态数据存储至节点表,以供根据所述节点表构建待纠错节点;所述第一状态数据的初始值为预设初始值;步骤S2,依次获取待纠错文本中任一字符,若字符位置对应的第一状态数据小于等于预设编辑距离,初始化第二状态数据;比较得到所述字符与所述待纠错文本其它各字符的比较结果,根据所述比较结果并基于多个单字符预设操作得到多个编辑距离,获取与其它各字符的最小编辑距离;根据其它各字符的最小编辑距离更新第二状态数据,并基于预设编辑距离更新所述第二状态数据;若所述节点表中未存储所述第二状态数据,根据所述第二状态数据构建待纠错节点并存储至所述节点表;若所述节点表中已存储所述第二状态数据,获取所述第二状态数据已构建的待纠错节点;记录基于所述字符从第一状态数据对应的待纠错节点至第二状态数据对应的待纠错节点的状态转移;所述单字符预设操作包括删除单个字符、添加单个字符、替换单个字符;步骤S3,利用预设通用字符,基于多个单字符预设操作确定所述预设通用字符与待纠错文本中各字符的多个编辑距离,获取与待纠错文本中各字符的最小编辑距离;根据与待纠错文本中各字符的最小编辑距离更新第二状态数据,并基于预设编辑距离更新所述第二状态数据;若所述节点表中未存储所述第二状态数据,根据所述第二状态数据构建待纠错节点并存储至所述节点表;若所述节点表中已存储所述第二状态数据,获取所述第二状态数据已构建的待纠错节点;记录基于所述预设通用字符从第一状态数据对应的待纠错节点至第二状态数据对应的待纠错节点的状态转移;步骤S4,利用所述节点表中存储的第二状态数据更新所述第一状态数据,重复执行步骤S2-S3,直至得到的所述第一状态数据均为节点表中存储的数据;根据各状态转移得到容错后缀自动机。
全文数据:
权利要求:
百度查询: 人民网股份有限公司 基于容错后缀自动机的文本纠错方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。