Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于位置信息及版式匹配的表格信息抽取方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:合肥大智慧财汇数据科技有限公司

摘要:本发明涉及表格处理技术领域,公开了基于位置信息及版式匹配的表格信息抽取方法及系统。该方法先构建待解析文档中的表格文本数据集以及相应的二维位置信息数据集;再提取表格文本数据集的语义特征,以及二维位置信息数据集的位置特征,并将两种特征进行融合以得到融合特征;然后构建基于单元格位置信息的单元格分类模型,将所述融合特征输入训练完成的单元格分类模型中,从而得到待解析文档中每个表格文本的每个单元格的所属标签;结合每个单元格的所属标签对表格进行版面分析,从而得到每个表格的表格版式;最后按照预设的逻辑抽取规则对不同表格版式的表格进行信息抽取。本发明简化了表格信息抽取任务的难度。

主权项:1.基于位置信息及版式匹配的表格信息抽取方法,其特征在于,包括以下步骤:S1.构建待解析文档中的表格文本数据集以及相应的二维位置信息数据集;S2.提取表格文本数据集的语义特征,以及二维位置信息数据集的位置特征,并将两种特征进行融合以得到融合特征;S3.构建基于单元格位置信息的单元格分类模型,将所述融合特征输入训练完成的单元格分类模型中,从而得到待解析文档中每个表格文本的每个单元格的所属标签;步骤S3中,所述单元格分类模型的训练方法包括以下步骤:S31.获取样本文档,并参照步骤S1~S2的方式构建样本文档的表格文本数据集T″,获取T″中每个表格文本对应的融合特征向量;S32.对T″中每个表格文本的每个单元格,按照抽取的指标类型打上相应的一维标签,从而获得每个表格文本的标签集,所有表格文本的标签集构成样本文档的标签集;其中,所述指标类型包括:具有C种明确类型的key属性即{key1,key2,…,keyc}、未知类型的通用key属性即keyunknown、属性值的value属性,以及表头title属性;S33.构建单元格分类模型,所述单元格分类模型选用卷积神经网络对T″中每个表格文本对应的融合特征向量进行特征提取,同时选用全连接层进行模型预测,即预测每个单元格所属每种指标类型的概率值;通过若干轮次的迭代训练,当所述单元格分类模型的输出极大拟合真实标签时终止对模型的训练;S4.结合每个单元格的所属标签对表格进行版面分析,从而得到每个表格的表格版式;步骤S4包括以下具体步骤:S41.根据表格文本的每个单元格的所属标签,获取单元格内容为单元格分类结果的标记表格;其中,表格文本对应的标记表格为其中,Li,j为第i行第j列的单元格分类结果,且S42.根据预设的版式定义规则,对待解析文档中的每个表格文本进行版面分析,从而得到对应的表格版式;四类表格版式及其设定方法如下:横表格,其版式定义规则为:对表格逐行进行判断,若出现起始行Rowstart=[Lstart,0,Lstart,1,…,Lstart,maxCol]中的所有单元格均为key属性,则依次遍历Rowstart之后的行,直至出现一行中含有key属性的单元格或所有单元格均为title属性时为止,将该行的前一行设为截止行Rowend;若直至表格最后一行RowmaxRow结束之前,所有行的单元格均为value属性,则存在Rowend=RowmaxRow-1;至此,将起始行Rowstart至截止行Rowend的所有行构成的表格定义为横表格;start和end分别表示起始行数和截止行数;竖表格,其版式定义规则为:对表格逐行进行判断,若出现起始行Rowstart=[Lstart,0,Lstart,1,…,Lstart,maxCoz]中同时包含key属性和value属性两种单元格,且value属性的单元格始终位于key属性的单元格之后,则依次遍历Rowstart之后的行,直至出现一行满足截止条件即该行中的所有单元格均为title属性或均为key属性时为止,将该行设为截止行Rowend;若直至表格最后一行RowmaxRow均不满足截止条件,则存在Rowend=RowmaxRow-1;至此,起始行Rowstart至截止行Rowend的所有行构成的表格定义为竖表格;联排表格,其版式定义规则为:对表格逐行、逐列进行判断,若出现一列Colj=[L0,j,L1,j,…,LmaxRow,j]以及之前所有的列Col0,Col1,...,Colj-1所描述的均为同一主体的多项详细信息,同时该列之后的若干列Colj+1,Colj+2,…,Colj+n所描述的均为另一主体的多项详细信息,则将起始列为Col0至截止列为Colj的所有列,以及起始列为Colj+1至截止列为Colj+n的所有列的表格定义为联排表格;n为偏移量,且满足j+n<maxCol;复杂嵌套表格,其版式定义规则为:若干个横、竖表格上下堆叠,或若干个横表格通过一行均为title属性的单元格进行拼接,或若干个竖表格通过一行均为title属性的单元格进行拼接,则将各个表格的组合定义为复杂嵌套表格;S5.按照预设的逻辑抽取规则对不同表格版式的表格进行信息抽取;步骤S5中,横表格的信息抽取过程如下:S511.根据版面分析,定义横表格tk存在第start行第j列的单元格分类结果为还存在第m1行第j列的单元格分类结果为其中,start+1≤m1≤endmaxRow;获取第start+1行的文本信息依据列坐标获取第start行的单元格分类结果[Lstart,0,…,Lstart,maxCol],获得第一结构化结果result1′,S512.参照步骤S511的方式构建横表格所有第一结构化结果的集合;竖表格的信息抽取过程如下:S521.根据版面分析,定义竖表格tk存在第m2行第j列的单元格分类结果为其中,start≤m2≤endmaxRow;S522.在抽取对象为第start行时,将该行第一个类别为任意一种key属性即keyc的单元格文本作为起点,即起点的所在列视为第j列;随后对该行之后的单元格进行遍历;S523.若之后的单元格类别为value属性,则获得第二结构化结果result″,若之后的单元格类别为当前类别keyc或另外一种key属性即key′c,则将该单元格作为新的起点,依次遍历,直至遍历到类别为value属性的当前单元格文本从而获得第二结构化结果result″,其中,q为当前单元格相对于起点的列偏移量;S524.若当前单元格的下一偏移量j+q+1<maxCol,且单元格文本的类别为value属性,则获得第三结构化结果result″′,S525.若当前单元格的下一偏移量j+q+1>maxCol,且单元格文本的类别为key′c,则将单元格文本作为新的起点,并重复步骤S523的操作;S526.若,+q+1≥maxCol,则以下一行即第start+1行作为抽取对象,并返回步骤S522以对竖表格的所有行进行信息提取。

全文数据:

权利要求:

百度查询: 合肥大智慧财汇数据科技有限公司 基于位置信息及版式匹配的表格信息抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。