一种基于OCR识别的全文检索方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：广东铭太信息科技有限公司

摘要：本发明提供了一种基于OCR识别的全文检索方法及系统，其方法，包括：采集待入库文件对应的文件源图，并对文件源图进行预处理，生成目标图像进行压缩后存储至图像子数据库；对目标图像进行OCR识别，将目标图像转换为文字信息，生成文本文件，存储至文本子数据库；基于目标图像与文本文件之间的对应关系，在图像子数据库和文本子数据库之间建立关联关系，生成图文入库文件；基于用户输入信息在文本子数据库中进行检索匹配，获得目标文件返回给用户端。本发明将非结构化数据转化为可检索的文本数据，实现了待入库文件的自动录入以及自动校对，完成对文本内容的全面检索帮助用户快速、准确地找到所需的信息，提高信息检索的效率和准确性。

主权项：1.一种基于OCR识别的全文检索方法，其特征在于，包括：步骤1：采集待入库文件对应的文件源图，并对文件源图进行预处理，生成目标图像进行压缩后存储至图像子数据库；步骤2：对目标图像进行OCR识别，将目标图像转换为文字信息，生成文本文件，存储至文本子数据库；步骤3：基于目标图像与文本文件之间的对应关系，在图像子数据库和文本子数据库之间建立多等级关联关系，生成图文入库文件；步骤4：基于用户输入信息在文本子数据库中进行检索匹配，获得目标文件返回给用户端；其中，步骤2，包括：基于OCR识别获取目标图像上的文字信息，并获取同一图像标签对应的全部文字信息建立文字集合；根据文字集合中各个文字信息对应的目标图像的默认编码顺序，文字集合中的文字信息进行整理，并根据整理结果进行文字拼接，获得完整文字文件；对完整文字文件进行都全文纠错处理，获得文本文件，并提取文本文件的主题名称；将主题名称作为文本文件名称后存储至文本子数据库中，并对对应的图像标签、临时名称进行同步修改更新；其中，对完整文字文件进行都全文纠错处理，包括：基于预设语义识别模型，对完整文字文件进行全文语义获取，并根据全无语义，对完整文字文件中的语句不通顺位置进行标记，获得疑错标记；根据前后文逻辑关系，结合疑错标记，确定疑似错误区域；参考疑似错误区域在目标图像中进行错误区域标记，基于OCR分别对各个错误区域进行精准识别，获得校准文字段；将所述校准文字段与疑似错误区域的文字进行对比，并判断文字是否一致，若不一致，基于校准文字段对疑似错误区域的文字进行替换；若一致，获取疑似错误区域的文字的第一字形特征以及错误区域的文字的第二字形特征，将第一字形特征与第二字形特征进行对比判断第一字形特征与第二字形特征是否一致；若第一字形特征与第二字形特征一致，则判定疑似错误区域解除错误嫌疑，删除疑似错误区域标记及其对应的疑错标记；若第一字形特征与第二字形特征不一致，则获取字形差异位置，基于字形差异对疑错标记位置的字形进行调整；其中，将主题名称作为文本文件名称后存储至文本子数据库的过程中，包括：获取文本子数据库的历史检索数据，基于历史检索数据，获取用户输入的检索信息对应的检索词，确定用户检索词涉及种类，生成检索点配置标准；基于检索点配置标准对文本文件进行检索点信息提取，获取文本文件对应的检索配置信息；基于文本文件存储信息，结合所述检索配置信息，生成文本文件对应的检索索引，并将所述检索索引添加至文本子数据库的索引列表中；其中，步骤4，包括：获取用户输入信息，提取查询关键词，确定检索配置信息；基于检索配置信息，结合索引列表在文本子数据库中进行检索匹配，获得目标文件；将目标文件发送至用户端进行显示；其中，将目标文件发送至用户端进行显示的同时，还包括：基于目标文件名称在全部图文入库文件中进行查询，触发目标入库文件；在接收到用户端对目标文件的原文查看操作时，确定用户的目标操作区域，基于目标操作区域大小确定用户对应的查看等级；基于查看等级，调用结合目标入库文件中目标文件与图像文件对应等级的关联关系，获取对应的图像原文并返回至用户端。

全文数据：

权利要求：

百度查询：广东铭太信息科技有限公司一种基于OCR识别的全文检索方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：基于二级控制框架的海上风力发电场储能电站控制方法

下一篇：一种水果采摘装置

相关技术

基于二级控制框架的海上风力发电场储能电站控制方法

一种水果采摘装置

一种基于视觉的车辆跑偏检测方法及系统

一种基于优化算法的健身运动方案生成方法及系统

一种拥有低应力的传递稳定杆结构扭力梁

锅炉烟气全负荷脱硝装置

一种砂带张紧装置及张紧方法和应用

一种大口径曲面光学元件表面缺陷三维检测装置及方法

一种新型冲压焊接前副车架

风力发电机变频器用降温装置

一种废气排放过滤装置

一种三角闸门正向输水小开度门缝输水启闭力矩计算方法

识别相关技术

一种细胞识别训练方法、细胞识别训练系统及细胞识别系统_宁波江丰生物信息技术有限公司_202411369781.1

车载智能识别检测系统_交科院检测技术(北京)有限公司_202010888319.8

地图要素识别模型的构建方法、地图要素识别方法及装置_智道网联科技(北京)有限公司_202410854817.9

一种语音识别与车辆控制方法、语音识别系统及车辆_比亚迪股份有限公司_202410874967.6

一种稻米质量智能自动识别设备及识别方法_深圳水木力合智能识别技术有限公司_202311269783.9

程序识别模型训练和程序识别方法、装置、设备及介质_恒安嘉新(北京)科技股份公司_202110997708.9

波形识别模型的训练、心电波形识别方法、装置及设备_东软集团股份有限公司_202110902579.0

一种人脸识别模型的训练、人脸识别方法及相关装置_广东履安实业有限公司_202111358142.1

一种人脸识别光学系统及人脸识别光学镜头_深圳迈塔兰斯科技有限公司_202410898773.X

一种基于PYNQ的无人机识别系统及识别方法_桂林电子科技大学_202210189825.7

全文相关技术

基于全文搜索的大模型自然语言文档查询系统及方法_四川虹魔方网络科技有限公司_202410991101.3

电力安全文件的学习情况评估结果的获取方法、装置、设备、存储介质和程序产品_广东电网有限责任公司信息中心_202410969741.4

一种流式读取和优化LRU算法全文检索方法及装置_中科星图数字地球合肥有限公司_202411295593.9

一种安全文明施工现场用降尘器_济南泉合森建设工程有限公司_202420406286.2

基于NLP的档案全文检索系统及方法_武汉海昌信息技术有限公司_202411275077.X

安全文件_中钞特种防伪科技有限公司_202310292601.3

一种煤矿安全文本挖掘方法_辽宁工程技术大学_202310267991.9

基于全文书病例的三级医生查房次数核查方法和系统_云知声智能科技股份有限公司_202410605015.4

基于全文检索的BIM模型多维度检索方法_中国电建集团成都勘测设计研究院有限公司_202410745254.X

一种安全文化提升措施生成方法与系统_清华大学_202410708389.9

方法相关技术

攻击检测模型的构建方法及攻击检测方法_上海斗象信息科技有限公司_202411019557.X

模型压缩方法、训练方法、多媒体数据处理方法及装置_北京百度网讯科技有限公司_202311235188.3

温升预测模型训练方法、预测方法及控制方法_浙江吉利控股集团有限公司_202410908685.3

对准装置及方法、成膜装置及方法和电子器件的制造方法_佳能特机株式会社_202410495098.6

集成电路的制造方法、设计方法以及备用单元的设计方法_台湾积体电路制造股份有限公司_202410679429.1

图像编码/解码方法和图像数据的传输方法_LX半导体科技有限公司_202411317979.5

资源循环方法及资源循环管理方法_株式会社久保田_202380019741.1

包裹拉距方法及包裹分拣方法_苏州金峰物流设备有限公司_202410973216.X

数据更新方法、信息推送方法及装置_支付宝(杭州)信息技术有限公司_202410852906.X

学习装置、检查装置、学习方法以及检查方法_株式会社斯库林集团_202010947201.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于OCR识别的全文检索方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务