首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于OCR识别的全文检索方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东铭太信息科技有限公司

摘要:本发明提供了一种基于OCR识别的全文检索方法及系统,其方法,包括:采集待入库文件对应的文件源图,并对文件源图进行预处理,生成目标图像进行压缩后存储至图像子数据库;对目标图像进行OCR识别,将目标图像转换为文字信息,生成文本文件,存储至文本子数据库;基于目标图像与文本文件之间的对应关系,在图像子数据库和文本子数据库之间建立关联关系,生成图文入库文件;基于用户输入信息在文本子数据库中进行检索匹配,获得目标文件返回给用户端。本发明将非结构化数据转化为可检索的文本数据,实现了待入库文件的自动录入以及自动校对,完成对文本内容的全面检索帮助用户快速、准确地找到所需的信息,提高信息检索的效率和准确性。

主权项:1.一种基于OCR识别的全文检索方法,其特征在于,包括:步骤1:采集待入库文件对应的文件源图,并对文件源图进行预处理,生成目标图像进行压缩后存储至图像子数据库;步骤2:对目标图像进行OCR识别,将目标图像转换为文字信息,生成文本文件,存储至文本子数据库;步骤3:基于目标图像与文本文件之间的对应关系,在图像子数据库和文本子数据库之间建立多等级关联关系,生成图文入库文件;步骤4:基于用户输入信息在文本子数据库中进行检索匹配,获得目标文件返回给用户端;其中,步骤2,包括:基于OCR识别获取目标图像上的文字信息,并获取同一图像标签对应的全部文字信息建立文字集合;根据文字集合中各个文字信息对应的目标图像的默认编码顺序,文字集合中的文字信息进行整理,并根据整理结果进行文字拼接,获得完整文字文件;对完整文字文件进行都全文纠错处理,获得文本文件,并提取文本文件的主题名称;将主题名称作为文本文件名称后存储至文本子数据库中,并对对应的图像标签、临时名称进行同步修改更新;其中,对完整文字文件进行都全文纠错处理,包括:基于预设语义识别模型,对完整文字文件进行全文语义获取,并根据全无语义,对完整文字文件中的语句不通顺位置进行标记,获得疑错标记;根据前后文逻辑关系,结合疑错标记,确定疑似错误区域;参考疑似错误区域在目标图像中进行错误区域标记,基于OCR分别对各个错误区域进行精准识别,获得校准文字段;将所述校准文字段与疑似错误区域的文字进行对比,并判断文字是否一致,若不一致,基于校准文字段对疑似错误区域的文字进行替换;若一致,获取疑似错误区域的文字的第一字形特征以及错误区域的文字的第二字形特征,将第一字形特征与第二字形特征进行对比判断第一字形特征与第二字形特征是否一致;若第一字形特征与第二字形特征一致,则判定疑似错误区域解除错误嫌疑,删除疑似错误区域标记及其对应的疑错标记;若第一字形特征与第二字形特征不一致,则获取字形差异位置,基于字形差异对疑错标记位置的字形进行调整;其中,将主题名称作为文本文件名称后存储至文本子数据库的过程中,包括:获取文本子数据库的历史检索数据,基于历史检索数据,获取用户输入的检索信息对应的检索词,确定用户检索词涉及种类,生成检索点配置标准;基于检索点配置标准对文本文件进行检索点信息提取,获取文本文件对应的检索配置信息;基于文本文件存储信息,结合所述检索配置信息,生成文本文件对应的检索索引,并将所述检索索引添加至文本子数据库的索引列表中;其中,步骤4,包括:获取用户输入信息,提取查询关键词,确定检索配置信息;基于检索配置信息,结合索引列表在文本子数据库中进行检索匹配,获得目标文件;将目标文件发送至用户端进行显示;其中,将目标文件发送至用户端进行显示的同时,还包括:基于目标文件名称在全部图文入库文件中进行查询,触发目标入库文件;在接收到用户端对目标文件的原文查看操作时,确定用户的目标操作区域,基于目标操作区域大小确定用户对应的查看等级;基于查看等级,调用结合目标入库文件中目标文件与图像文件对应等级的关联关系,获取对应的图像原文并返回至用户端。

全文数据:

权利要求:

百度查询: 广东铭太信息科技有限公司 一种基于OCR识别的全文检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。