基于位置信息及版式匹配的表格信息抽取方法及系统

导航：龙图腾网> 最新专利技术> 基于位置信息及版式匹配的表格信息抽取方法及系统

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：合肥大智慧财汇数据科技有限公司

摘要：本发明涉及表格处理技术领域，公开了基于位置信息及版式匹配的表格信息抽取方法及系统。该方法先构建待解析文档中的表格文本数据集以及相应的二维位置信息数据集；再提取表格文本数据集的语义特征，以及二维位置信息数据集的位置特征，并将两种特征进行融合以得到融合特征；然后构建基于单元格位置信息的单元格分类模型，将所述融合特征输入训练完成的单元格分类模型中，从而得到待解析文档中每个表格文本的每个单元格的所属标签；结合每个单元格的所属标签对表格进行版面分析，从而得到每个表格的表格版式；最后按照预设的逻辑抽取规则对不同表格版式的表格进行信息抽取。本发明简化了表格信息抽取任务的难度。

主权项：1.基于位置信息及版式匹配的表格信息抽取方法，其特征在于，包括以下步骤：S1.构建待解析文档中的表格文本数据集以及相应的二维位置信息数据集；S2.提取表格文本数据集的语义特征，以及二维位置信息数据集的位置特征，并将两种特征进行融合以得到融合特征；S3.构建基于单元格位置信息的单元格分类模型，将所述融合特征输入训练完成的单元格分类模型中，从而得到待解析文档中每个表格文本的每个单元格的所属标签；步骤S3中，所述单元格分类模型的训练方法包括以下步骤：S31.获取样本文档，并参照步骤S1～S2的方式构建样本文档的表格文本数据集T″，获取T″中每个表格文本对应的融合特征向量；S32.对T″中每个表格文本的每个单元格，按照抽取的指标类型打上相应的一维标签，从而获得每个表格文本的标签集，所有表格文本的标签集构成样本文档的标签集；其中，所述指标类型包括：具有C种明确类型的key属性即{key1，key2，…，keyc}、未知类型的通用key属性即keyunknown、属性值的value属性，以及表头title属性；S33.构建单元格分类模型，所述单元格分类模型选用卷积神经网络对T″中每个表格文本对应的融合特征向量进行特征提取，同时选用全连接层进行模型预测，即预测每个单元格所属每种指标类型的概率值；通过若干轮次的迭代训练，当所述单元格分类模型的输出极大拟合真实标签时终止对模型的训练；S4.结合每个单元格的所属标签对表格进行版面分析，从而得到每个表格的表格版式；步骤S4包括以下具体步骤：S41.根据表格文本的每个单元格的所属标签，获取单元格内容为单元格分类结果的标记表格；其中，表格文本对应的标记表格为其中，Li，j为第i行第j列的单元格分类结果，且S42.根据预设的版式定义规则，对待解析文档中的每个表格文本进行版面分析，从而得到对应的表格版式；四类表格版式及其设定方法如下：横表格，其版式定义规则为：对表格逐行进行判断，若出现起始行Rowstart＝[Lstart,0，Lstart,1，…，Lstart,maxCol]中的所有单元格均为key属性，则依次遍历Rowstart之后的行，直至出现一行中含有key属性的单元格或所有单元格均为title属性时为止，将该行的前一行设为截止行Rowend；若直至表格最后一行RowmaxRow结束之前，所有行的单元格均为value属性，则存在Rowend＝RowmaxRow-1；至此，将起始行Rowstart至截止行Rowend的所有行构成的表格定义为横表格；start和end分别表示起始行数和截止行数；竖表格，其版式定义规则为：对表格逐行进行判断，若出现起始行Rowstart＝[Lstart,0，Lstart,1，…，Lstart,maxCoz]中同时包含key属性和value属性两种单元格，且value属性的单元格始终位于key属性的单元格之后，则依次遍历Rowstart之后的行，直至出现一行满足截止条件即该行中的所有单元格均为title属性或均为key属性时为止，将该行设为截止行Rowend；若直至表格最后一行RowmaxRow均不满足截止条件，则存在Rowend＝RowmaxRow-1；至此，起始行Rowstart至截止行Rowend的所有行构成的表格定义为竖表格；联排表格，其版式定义规则为：对表格逐行、逐列进行判断，若出现一列Colj＝[L0,j，L1，j，…，LmaxRow，j]以及之前所有的列Col0，Col1，...，Colj-1所描述的均为同一主体的多项详细信息，同时该列之后的若干列Colj+1，Colj+2，…，Colj+n所描述的均为另一主体的多项详细信息，则将起始列为Col0至截止列为Colj的所有列，以及起始列为Colj+1至截止列为Colj+n的所有列的表格定义为联排表格；n为偏移量，且满足j+n＜maxCol；复杂嵌套表格，其版式定义规则为：若干个横、竖表格上下堆叠，或若干个横表格通过一行均为title属性的单元格进行拼接，或若干个竖表格通过一行均为title属性的单元格进行拼接，则将各个表格的组合定义为复杂嵌套表格；S5.按照预设的逻辑抽取规则对不同表格版式的表格进行信息抽取；步骤S5中，横表格的信息抽取过程如下：S511.根据版面分析，定义横表格tk存在第start行第j列的单元格分类结果为还存在第m1行第j列的单元格分类结果为其中，start+1≤m1≤endmaxRow；获取第start+1行的文本信息依据列坐标获取第start行的单元格分类结果[Lstart,0，…，Lstart,maxCol]，获得第一结构化结果result1′，S512.参照步骤S511的方式构建横表格所有第一结构化结果的集合；竖表格的信息抽取过程如下：S521.根据版面分析，定义竖表格tk存在第m2行第j列的单元格分类结果为其中，start≤m2≤endmaxRow；S522.在抽取对象为第start行时，将该行第一个类别为任意一种key属性即keyc的单元格文本作为起点，即起点的所在列视为第j列；随后对该行之后的单元格进行遍历；S523.若之后的单元格类别为value属性，则获得第二结构化结果result″，若之后的单元格类别为当前类别keyc或另外一种key属性即key′c，则将该单元格作为新的起点，依次遍历，直至遍历到类别为value属性的当前单元格文本从而获得第二结构化结果result″，其中，q为当前单元格相对于起点的列偏移量；S524.若当前单元格的下一偏移量j+q+1＜maxCol，且单元格文本的类别为value属性，则获得第三结构化结果result″′，S525.若当前单元格的下一偏移量j+q+1＞maxCol，且单元格文本的类别为key′c，则将单元格文本作为新的起点，并重复步骤S523的操作；S526.若，+q+1≥maxCol，则以下一行即第start+1行作为抽取对象，并返回步骤S522以对竖表格的所有行进行信息提取。

全文数据：

权利要求：

百度查询：合肥大智慧财汇数据科技有限公司基于位置信息及版式匹配的表格信息抽取方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：订单处理方法、装置、电子设备及存储介质

下一篇：一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

相关技术

订单处理方法、装置、电子设备及存储介质

一种纤维假捻纺纱设备及用于复合纤维的纺纱工艺

一种基于蜣螂优化算法的智能车轨迹跟踪控制方法

一种变压器电磁温度流体多物理场间接耦合计算方法及系统

用于传递和存储用于ESIM设备变更的激活码的方法和装置

一种电动汽车无线充电系统漏磁优化方法

双酚A型聚碳酸酯降解用催化剂及降解方法

一种源网荷储系统的组件配置优化方法和装置

一种木门加工灰尘清理装置

一种通用性电机调速模块

基于FPN的复杂环境典型树木高效智能识别方法及系统

植物的耐热性或耐干燥性提高剂、耐盐性提高剂、活性提高剂

信息相关技术

信息处理程序、信息处理方法和信息处理系统_CY游戏公司_202380030937.0

信息处理程序、信息处理方法和信息处理系统_CY游戏公司_202380030934.7

信息提供系统、信息提供方法以及信息提供程序_三菱电机株式会社_202280094451.9

信息处理程序、信息处理方法以及信息处理装置_富士通株式会社_202280094203.4

信息转换系统、信息处理装置、信息处理方法及程序_佳能株式会社_202380030249.4

信息提供装置、信息提供方法以及信息提供程序_NTT通信公司_202380029533.X

信息处理方法及信息处理装置_日产自动车株式会社_202280094468.4

信息处理装置、信息处理方法及程序_古河电气工业株式会社_202380032075.5

信息处理设备，信息处理方法和程序_索尼公司_202410970547.8

信息收集系统、检查用基板以及信息收集方法_东京毅力科创株式会社_202410556494.5

表格相关技术

基于卷积神经网络的表格数据矩阵化处理方法与系统_辽宁石油化工大学_202411204000.3

一种表格文件校验方法、装置、服务器设备、系统和介质_苏州元脑智能科技有限公司_202411169951.1

一种表格修改信息确定方法、装置、设备及介质_中国建设银行股份有限公司_202411146246.X

一种流水表格识别方法及系统_北京荣大科技股份有限公司_202411038842.6

基于自然语言描述表格的检索增强生成方法_上海电力设计院有限公司_202410943600.5

基于大语言模型的表格-文本数据生成方法及装置_中国人民解放军国防科技大学_202411040149.2

一种基于深度学习的表格文本检测与识别方法及系统_山东浪潮数字商业科技有限公司_202410924916.X

一种版式文件模板的动态表格的生成方法、装置及设备_北京数科网维技术有限责任公司_202410943205.7

一种基于React和json的复杂表格组件远程动态生成系统及方法_江苏开放大学(江苏城市职业学院)_202411019538.7

一种非固定格式表格信息自动检索和自动填表系统_中国农业科学院都市农业研究所_202410957896.6

抽取相关技术

一种水样自动抽取装置_深圳市光明区环境水务有限公司_202420499191.X

一种肠胃肿瘤积液抽取装置_成都市青白江区人民医院_202420313890.0

一种瓦斯防治用气体抽取设备_华能铜川照金煤电有限公司西川煤矿分公司_202411144737.0

一种方便抽取的触探杆_喀什建实路桥试验检测有限责任公司_202420293247.6

一种真空抽取设备用防护减震装置_湖南玉丰真空科学技术有限公司_202411051310.6

一种基于知识提示的概念抽取系统_复旦大学_202210419758.3

机油抽取装置及汽车检测系统_东风柳州汽车有限公司_202110840882.2

一种烟气抽取式监测预处理方法及系统_南京磁域环境技术有限公司_202410958775.3

一种五维地震道集数据快速抽取方法_中国石油化工股份有限公司_202310552560.7

一种大模型增强的半开放知识抽取方法和系统_之江实验室_202411456385.2

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于位置信息及版式匹配的表格信息抽取方法及系统

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务