买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中通服咨询设计研究院有限公司;江苏省通信服务有限公司
摘要:本发明公开了一种粗精双模型进出口货物申请表OCR识别方法,包括以下步骤:步骤1,粗模型表头内容匹配定位识别,通过Tesseract‑OCR算法对表头内容进行识别并与制表数据库中的模板信息进行快速匹配,得到整张申请表的行列数和关键字段信息;步骤2,表格内容图像预处理,通过中值滤波和图像锐化操作过滤图像的噪点信息,同时结合阈值分割去除红色印章信息;步骤3,表格cell内容识别以及识别后处理,利用改进的TE‑Efficient算法和CRNN轻量检测网络结构对表格cell小目标特征提取与识别。构建索引并匹配完成对整个申请表内容的精准识别,同步写入数据库中,完成对数据的识别存档。该识别方法快捷高效,可以有效提高办公效率。
主权项:1.一种粗精双模型进出口货物申请表OCR识别方法,其特征在于,包括以下步骤:步骤1,采用粗模型对表头内容匹配定位识别;步骤2,对表格内容进行图像预处理;步骤3,采用精细模型对表格内容块cell内容进行识别;步骤4,得到进出口货物申请表OCR识别结果,并进行后续处理;其中,步骤1中所述的采用粗模型对表头内容匹配定位识别方法包括:根据进出口货物申请表的表头部分训练一个表头内容识别模型,快速匹配制表数据库中的模板信息;识别模型采用Tesseract-OCR算法,通过匹配得到整张进出口货物申请表的基本内容信息,包括行列数以及相应字段内容信息;步骤3中所述的采用精细模型对表格内容块cell内容进行识别方法包括:对经过步骤2中所述图像预处理的表格图像,构建精细模型对每个表格内容块cell小目标内容进行识别;所述精细模型采用改进的TE-Efficient及CRNN轻量检测网络结构,该模型基于Efficient网络结构,采用模型复合缩放方法统一缩放网络深度、宽度和分辨率,加上PAN与TE-CODE模块增加对表格内容块cell小目标特征提取与识别性能,结合CRNN模型对每个表格内容块cell的内容进行最终识别,得到文字内容位置与结果;步骤3中,基于改进的TE-Efficient及CRNN轻量检测网络结构构建对精细化网络对表格内容块cell小目标内容进行识别;其中,网络检测部分核心网络采用Efficientnet,在其132,116,18层基于PAN+TE-CODE模块构建输出检测头,对所述输出检测头采用不同的权重分配,越低层有效信息越多,分配的权重越大,通过上述网络检测部分增加对小目标物体的检测,最终将整个图像分割成一个个独立的待识别表格内容块cell单元,后续结合已有的CRNN模型,对其切分的网格图像块分别进行识别,得到最终的整张图像识别结果。
全文数据:
权利要求:
百度查询: 中通服咨询设计研究院有限公司 江苏省通信服务有限公司 一种粗精双模型进出口货物申请表OCR识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。