首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种表格结构识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京理工大学

摘要:本发明涉及一种表格结构识别方法,属于模式识别技术领域。包括两个过程:初始行列生成阶段和行列生成阶段。在初始行列生成阶段,通过启发式的算法将有重叠区域的单元格组织成初始行与初始列;由于没有重叠关系的单元格也可能存在同行列关系,因此在行列生成阶段,利用图神经网络来主要预测没有重叠区域的单元格之间的行列关系,作为遗漏关系的补充;为了降低预测的计算复杂度,单元格之间的关系实际上通过预测单元格与初始行初始列之间的关系得到。对比现有技术,本发明减少了模型需要判断关系的单元格数,并基于初始行与初始列给后续图模型的构建以及特征提取提供了先验知识;最后能够生成表格的行与列,其能完全还原表格的结构。

主权项:1.一种表格结构识别方法,其特征在于,包括初始行列生成阶段和行列生成阶段;在初始行列生成阶段,将有重叠区域的单元格组织成初始行与初始列;在行列生成阶段,利用图神经网络预测没有重叠区域的单元格之间的行列关系,作为所述初始行列生成阶段遗漏关系的补充;在所述初始行列生成阶段: 从输入文档中提取表格对应的单元格信息,其中,单元格的位置由单元格中实际包含的文字界定; 根据所述单元格信息获取不同单元格之间在水平垂直方向上的重叠区域,从而得到不同单元格之间的同列行关系,将同行关系记录在中,将同列关系记录在中; 初始化初始行集合和初始列集合;④向集合中添加元素:若存在尚未标记的单元格,则从所有单元格中,选择未被标记的单元格,并从中找出所有与其存在同行关系的单元格,将被选择的单元格以及所有与其存在同行关系的单元格合并为初始行,将产生的添加至PR中,并标记所有存在于中的单元格,返回④;否则,保存PR,退出④;⑤向集合中添加元素:若存在尚未标记的单元格,则从所有单元格中,选择未被标记的单元格,并从中找出所有与其存在同列关系的单元格,将被选择的单元格以及所有与其存在同列关系的单元格合并为初始列,将产生的添加至PC中,并标记所有存在于中的单元格,返回⑤;否则,保存PC,退出⑤;在所述行列生成阶段:列的生成: 计算排名:对所述PC中每一个初始列,计算其水平方向的平均边界,并根据平均边界对初始列进行排名,因为对于每个单元格水平方向存在两个边界值,因此每个初始列也存在两个排名值; 初始化无向图; 构造图中的节点:图中存在两种节点:初始列节点以及单元格节点;第i个初始列节点,用三维向量表示,其中第一、二维为初始列的两个排名值,第三维为所述PC中初始列的数目;第i个单元格存在于若干初始列和若干初始行中,其对应图G中的单元格节点,用四维向量表示,其中第一、二维分别为单元格所在初始列集合中平均左边界最小、平均右边界最大的初始列的排名值,第三维为单元格所在第一个初始行的单元格数目,第四维为单元格所在第一个初始行的索引值;④构造图中的边:图中存在两种边:单元格节点之间的边,用c2c表示;单元格节点与初始列节点之间的边,用c2g表示;若两单元格存在于同一初始行中且二者在水平方向上相邻,则在对应单元格节点之间添加c2c边,并称对应单元格节点互为邻居单元格节点;在每个单元格节点与所有初始列节点之间添加c2g边,添加的边有两种类型:若单元格存在于对应初始列,则c2g边的类型为1;反之,则为0;⑤根据c2g边的类型,通过查字典的方式初始化边的向量表示,字典包括四种:边的类型映射所用的字典,排名值映射所用的字典,节点数目映射所用的字典,排名值差的绝对值映射所用的字典; 节点数差异特征提取:计算所有初始行包含的单元格数量,并将数量构造成一个序列,对于,构造的序列为,其中,其中,表示第i个初始行包含的单元格数量;通过双向GRU处理序列,得到等长的序列,中的第个元素反映了第个初始行与其他初始行包含单元格数差异的特征; 动态更新c2g边对应的向量表示:c2g边的向量表示通过轮更新得到最终表示,其中Z是所述图神经网络的跳数;在第z轮更新时,主要考虑三方面的信息,其中,z=1,2,…,:(1)单元格节点与初始列节点之间的差异;(2)单元格节点的邻居单元格节点所提供的信息;(3)单元格所属初始行的节点数差异特征;更新公式:,其中为权重,权值向量,其中对向量进行归一化,为以ReLU为激活函数的两层前馈神经网络,; 基于最终c2g边的向量表示,利用多层感知机对c2g边进行二分类,分类的类别包括属于和不属于; 分析所有单元格节点与初始列节点之间边的类型,若边的类型为属于,则将对应单元格并至对应初始列得到对应的生成列; 输出所有的生成列;行的生成:将单元格的位置坐标顺时针旋转90度,令,,将作为初始行集合,作为初始列集合,通过所述列的生成生成列,对应生成的列即为所述表格的实际行,输出所有的生成行。

全文数据:

权利要求:

百度查询: 北京理工大学 一种表格结构识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。