买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:广州视源电子科技股份有限公司;广州视源人工智能创新研究院有限公司
摘要:本申请实施例提供一种表格提取方法和电子设备,该方法包括获取待提取表格的文档;对文档进行处理,得到多个文本块和各文本块对应的文本块信息,其中,文本块信息包括语义向量、位置信息和类型向量;根据各文本块信息,得到表格开始指针序列、表格内容指针序列和表格结束指针序列;根据各文本块、表格开始指针序列、表格内容指针序列和表格结束指针序列,得到表格。在对文档中的电子表格进行提取时,不再基于文档中存在的线条进行提取,而是通过利用文档中的文本块的信息进行提取,能够有效避免因为边框缺失导致表格无法识别的缺点,泛化性能更强,可提高对少线条或无线条的表格进行提取的效果。
主权项:1.一种表格提取方法,其特征在于,包括:获取待提取表格的文档;对所述文档进行处理,得到多个文本块和各所述文本块对应的文本块信息,其中,所述文本块信息包括语义向量、位置信息和类型向量;根据各所述文本块信息,得到表格开始指针序列、表格内容指针序列和表格结束指针序列;根据各所述文本块、所述表格开始指针序列、所述表格内容指针序列和所述表格结束指针序列,得到所述表格。
全文数据:
权利要求:
百度查询: 广州视源电子科技股份有限公司 广州视源人工智能创新研究院有限公司 一种表格提取方法和电子设备
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。