买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州新丝路信息科技有限公司
摘要:本申请公开了一种进口货物报关单OCR识别分行处理方法及装置,通过基于商品编码的表头对应的第一坐标,遍历预设坐标范围内的第n行的起始字符,通过判断第n行中预设数量的字符是否为预设属性,例如统一为数字,从而确定该行是否为新的一行,从而利用两行起始字符之间的第二纵坐标之差确定该行的行距,同时实现了分列以及分行,解决了在对进口货物报关单进行OCR识别处理后,通常由于进口货物报关单中商品编号与商品名称及规格型号两列在表格中的内容紧挨在一起,导致的OCR识别为一列内容,且由于没有准确识别出商品编号列,存在着无法区分商品名称与规格型号列中每行内容的边界的技术问题。
主权项:1.一种进口货物报关单OCR识别分行处理方法,其特征在于,包括:S101、获取商品编码的表头对应第一坐标,所述第一坐标包括第一横坐标以及第一纵坐标;S102、基于所述第一坐标,在预设坐标范围内确定第n行的起始字符,其中n≥1;S103、若所述第n行中预设数量的字符为预设属性,则记录所述起始字符的第二坐标,所述第二坐标包括第二横坐标以及第二纵坐标,所述第二纵坐标为所述起始字符的顶部纵坐标;S104、将所述第n行的第二纵坐标与第n-1行的第二纵坐标相减,确定所述第n-1行的纵坐标区间;S105、将n=n+1,并返回所述步骤S102;所述步骤S102具体包括:在所述第一横坐标的预设坐标范围内,沿所述第一纵坐标向下遍历,确定遍历到的第n行的起始字符,其中n≥1;所述步骤S103具体包括:以所述第n行的起始字符为开始,识别出预设数量的字符的预设属性;若所述第n行中预设数量的字符为预设属性,则记录所述起始字符的第二坐标,所述第二坐标包括第二横坐标以及第二纵坐标,所述第二纵坐标为所述起始字符的顶部纵坐标;所述步骤S103还包括:若所述第n行中预设数量的字符中,存在任意一个字符不为所述预设属性,则将所述字符与预设字符模板进行匹配,匹配成功则将所述字符转换为所述预设属性的对应字符,匹配失败则忽略所述第n行。
全文数据:
权利要求:
百度查询: 广州新丝路信息科技有限公司 一种进口货物报关单OCR识别分行处理方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。