首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种PDF档案资源高效提取方法及文本识别系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:广东亚齐信息技术股份有限公司

摘要:本申请提供了一种PDF档案资源高效提取方法及文本识别系统,包括以下步骤:S1、建立文档索引:为每一个PDF文档创建一个索引,记录文档的基本信息,包括文档ID、名称、上次更新时间,S2、初始全量提取:首次处理文档时,进行全量提取,将文档内容完整提取并存储,文档内容包括文档中的所有文本和图像,S3、标记变化区域:当文档更新时,通过对比新旧版本,标记出发生变化的区域,记录变化区域的坐标、页码以及变化类型,变化类型包括新增、修改和删除的部分。本申请通过仅在文档更新时提取变化区域的内容,而不是重新处理整个文档,显著减少了需要分析的文档量。这种方法大幅缩短了信息提取的时间,提高了处理大量PDF文档的效率。

主权项:1.一种PDF档案资源高效提取方法,其特征在于,包括以下步骤:S1、建立文档索引:为每一个PDF文档创建一个索引,记录文档的基本信息,包括文档ID、名称、上次更新时间;S2、初始全量提取:首次处理文档时,进行全量提取,将文档内容完整提取并存储,文档内容包括文档中的所有文本和图像;S3、标记变化区域:当文档更新时,通过对比新旧版本,标记出发生变化的区域,记录变化区域的坐标、页码以及变化类型,变化类型包括新增、修改和删除的部分;S4、增量提取:对标记的变化区域进行提取,将提取的内容与之前存储的全量内容进行整合;S5、更新索引:更新文档索引中的相关信息,包括更新时间;所述S4中,具体包括以下提取步骤:S4.1、定位标记区域:根据S3步骤中记录的标记信息,定位到PDF文档中的具体变化区域,包括变化区域的坐标、页码以及变化类型;S4.2、内容提取:针对每个定位到的标记区域,使用PDF处理工具提取区域内的内容,对于文本变化区域,提取区域内的所有文本,对于图像变化区域,提取区域内的图像数据,提取的内容保持其原始格式以便于后续处理;S4.2中,PDF处理工具具体为PyMuPDF,使用PyMuPDF进行内容提取的详细步骤包括:S4.2.1、打开PDF文档:使用PyMuPDF打开需要处理的PDF文档;S4.2.2、定位标记区域:根据S3步骤中记录的标记信息,定位到具体的变化区域;S4.2.3、提取文本内容:对于文本变化区域,使用PyMuPDF提取区域内的所有文本;S4.2.4、提取图像内容:对于图像变化区域,找到页面中的所有图像,判断图像的位置是否与标记的变化区域相交,相交则提取该图像;S4.2.5、关闭文档:提取完成后,关闭PDF文档。

全文数据:

权利要求:

百度查询: 广东亚齐信息技术股份有限公司 一种PDF档案资源高效提取方法及文本识别系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。