首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于OCR的表格文字识别方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海华讯网络系统有限公司

摘要:本发明提供了一种基于OCR的表格文字识别方法和系统,包括:解析PDF文件,将PDF文件转换为图像数据;对图像数据进行版面分析,得到版面分析结果;判断是否存在表格元素;是,则保存坐标信息;否,则按照纯文本进行识别;基于深度学习网络,得出表格检测框数量与区域;寻找图像中的轮廓;得出表格检测框数量与区域;判断经前者得出的检测框数量与后者得出的检测框数量是否相等,是,则采用后者得出的检测框数量作为输入项;否,则采用检测框数量更多的结果作为输入项;返回每行的文本内容,得出结果数据。本发明进行页面的表格检测,检测出页面中存在的表格区域,为单元格检测和信息提取做准备;利用此方法可以提高表格检测的精度。

主权项:1.一种基于OCR的表格文字识别方法,其特征在于,包括:步骤S1:解析PDF文件,将PDF文件转换为图像数据;步骤S2:对图像数据进行版面分析,得到版面分析结果;步骤S3:基于版面分析结果,判断是否存在表格元素;结果为是,则保存表格检测区域坐标信息;结果为否,则按照纯文本进行识别;基于深度学习网络,得出表格的检测框数量与区域;步骤S4:基于图像数据,通过形态学处理,寻找图像中的轮廓;并且根据轮廓,得出表格的检测框数量与区域;步骤S5:判断经步骤S3得出的检测框数量与经步骤S4得出的检测框数量是否相等,结果为是,则采用经步骤S4得出的检测框数量作为输入项;结果为否,则采用检测框数量更多的检测结果作为输入项;步骤S6:基于输入项,得到单元格信息,并且对单元格信息进行过滤,得到单元格坐标信息;步骤S7:基于单元格坐标信息,得到并且通过每个文本框的坐标信息和文本框中的识别内容,返回每行的文本内容,得出结果数据。

全文数据:

权利要求:

百度查询: 上海华讯网络系统有限公司 基于OCR的表格文字识别方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。