首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于字符存在性指标的文本纠错方法、装置、计算机设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京匠数科技有限公司

摘要:本公开提供了一种基于字符存在性指标的文本纠错方法、装置、计算机设备及存储介质,应用于文本检测技术领域,包括:利用文本纠错模型,检测获取的文本数据中是否存在待纠正字符,若存在,确定待纠正字符对应的目标字符以及目标字符的纠错概率;在纠错概率小于或等于概率阈值时,基于待纠正字符在文本数据的位置和预设片段长度,从文本数据中确定包括待纠正字符的至少一个第一文本片段;以及将每个第一文本片段中待纠正字符替换为目标字符,生成第二文本片段;确定第一文本片段在片段库中存在的第一频次、第二文本片段在片段库中存在的第二频次;在基于第一频次与第二频次,确定本次检测满足字符替换条件时,将文本数据中的待纠正字符替换为目标字符。本申请可以缓解文本纠错模型的误纠情况,保障文本纠错的准确度。

主权项:1.一种基于字符存在性指标的文本纠错方法,其特征在于,包括:获取待检测的文本数据;利用文本纠错模型,检测所述文本数据中是否存在待纠正字符,若存在,则确定所述待纠正字符对应的目标字符以及所述目标字符的纠错概率;在所述纠错概率小于或等于概率阈值时,基于所述待纠正字符在所述文本数据的位置和预设片段长度,从所述文本数据中确定包括所述待纠正字符的至少一个第一文本片段;以及将每个所述第一文本片段中所述待纠正字符替换为所述目标字符,生成第二文本片段;确定所述第一文本片段在预先构建的片段库中存在的第一频次,以及确定所述第二文本片段在所述片段库中存在的第二频次;基于所述第一频次与所述第二频次,确定本次检测是否满足字符替换条件,若满足,则将所述文本数据中的所述待纠正字符替换为所述目标字符;所述基于所述第一频次与所述第二频次,确定本次检测是否满足字符替换条件,包括:基于所述第一文本片段的所述第一频次以及所述待纠正字符在所述第一文本片段的位置信息,确定所述第一文本片段的第一存在性指数;以及,基于所述第二文本片段的所述第二频次以及所述目标字符在所述第二文本片段的位置信息,确定所述第二文本片段的第二存在性指数;其中,存在性指数用于表征文本片段在所述片段库中存在的强弱程度;基于所述第一存在性指数与所述第二存在性指数,确定本次检测是否满足字符替换条件;其中根据下述公式确定第一文本片段的第一存在性指数: ; 为所述第一文本片段的第一频次,为所述待纠正字符在所述第一文本片段的位置信息,N为所述预设片段长度,为用于防止除零错误的参数,为设置的缩放因子。

全文数据:

权利要求:

百度查询: 北京匠数科技有限公司 基于字符存在性指标的文本纠错方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术