一种面向证券信息披露长文档的表格分类方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国矿业大学(北京)

摘要：本发明公开了一种面向证券信息披露长文档的表格分类方法，具体如下：步骤1、获得证券信息披露长文档的PDF文件，并进行解析；步骤2、依据关键词和上下文抽取算法，从解析后的PDF结构的证券信息披露长文档中抽取待分析的表格及其上下文；步骤3、预处理表格及其上下文，形成词嵌入模型训练上下文样本集合与表格分类样本集合；步骤4、通过上下文样本集合训练词嵌入模型；步骤5、使用训练获得的词嵌入模型对预处理后的表格及其上下文进行词嵌入表示，并使用不同的多尺度卷积神经网络，对表格及其上下文进行特征提取；步骤6、对提取到的表格及其上下文特征采取特征扩展融合方式，得到特征融合结果进行表格分类。本发明能快速准确的获取待分析表格。

主权项：1.一种面向证券信息披露长文档的表格分类方法，其特征在于，包括以下步骤：步骤1、获得证券信息披露长文档的PDF文件，并进行解析，获得解析后的PDF结构的证券信息披露长文档；步骤2、依据关键词和上下文抽取算法，从解析后的PDF结构的证券信息披露长文档中抽取待分析的表格及其上下文；步骤3、预处理表格及其上下文，形成词嵌入模型训练上下文样本集合与表格分类样本集合；步骤4、通过上下文样本集合训练词嵌入模型；步骤5、使用步骤4训练获得的词嵌入模型对预处理后的表格及其上下文进行词嵌入表示，并使用不同的多尺度卷积神经网络，对表格及其上下文进行特征提取；步骤6、对步骤5提取到的表格及其上下文特征采取特征扩展融合方式，得到特征融合结果进行表格分类；步骤2具体如下：首先利用关键词初筛表格，然后对表格上下文进行抽取，上下文是指表格上部和下部的文本；具体如下：设表格具有N行M列，采用中心点xi'j',yi'j'表示单元格以及内部文本坐标，其中，1≤i'≤N，i'表示表格的第i'行，1≤j'≤M，j'表示表格的第j'列，xi'j'表示第i'行第j'列单元格以及内部文本的横坐标，yi'j'表示第i'行第j'列单元格以及内部文本的纵坐标；步骤A、解析获取N行M列表格以及周围文本；步骤B、采用关键词判断表格是否为待分析表格，若是待分析的表格，则执行步骤C，若不是返回步骤A；步骤C、设ypre表示上文纵坐标、yfol表示下文纵坐标；步骤D、若miny1j'-ypre＜L且任意表格纵坐标范围，则抽取上文；其中，min为求最小值函数，max为求最大值函数，L表示上下文纵坐标与表格第一行、最后一行纵坐标的差值，能够控制上下文长度，L是预先设定的；步骤E、若yfol-maxyNj'＜L且任意表格纵坐标范围，则抽取下文；步骤3中，预处理表格及其上下文是指：将证券信息披露长文档中数字、比率、人名、地点和日期数据，采用固定的数据类型标识代替，并取表格前两行两列单元格；步骤4中通过上下文样本集合中的上下文样本，采用skip-gram的模式训练word2vec词嵌入模型；具体如下：首先设置上下文窗口大小，skip-gram利用窗口中的中心词去预测中心词的上下文，通过词嵌入模型的不断迭代训练，能够获取表格及其上下文每个词语的低维稠密向量表示；步骤5中使用不同的多尺度卷积神经网络进行特征提取，特征包括表格的语义特征和上下文的语义特征；提取表格的语义特征，具体如下：取表格前两行两列单元格并按行展开，令Ti＝{w1,w2,w3.......wK}，Ti表示第i个单元格，1≤i≤C，C表示最大单元格数量，wq表示单元格中第q个词语，1≤q≤K，K表示单元格截取的最大词语个数，设W0为卷积运算的滤波器，W0∈RK×D，RK×D表示滤波器的维度，D表示词嵌入维度，对单元格逐个进行卷积操作，则有：其中，表示当前参与卷积运算的第i个单元格内的词语的词向量，表示第i个单元格提取的特征，b0表示偏置，mtable∈RC，mtable表示所有单元格提取的特征，RC表示卷积运算提取的特征向量维度；若使用H个尺寸相同的卷积滤波器，则有：Mtable＝[mtable1,mtable2,...mtableH]其中，Mtable∈RC×H，Mtable表示H个尺寸相同的卷积滤波器提取到的所有单元格特征，RC×H表示使用H个尺寸相同的滤波器后卷积运算提取的特征向量维度，经由最大池化操作，则有：其中，表示最大池化后表格的最终特征表示，RH表示最大池化操作后最终的特征向量维度；提取上下文的语义特征具体如下：对于表格上文，设上文序列为{w1,w2,w3.......wP}，wp表示上文中第p个词语，1≤p≤P，P为上文序列中词语的总数，设W1为卷积运算的滤波器，W1∈K×D，即上文卷积窗口内词数和单元格截取词数一致；对上文进行卷积运算时，与单元格卷积运算每次滤波器移动步长为K不同，上文文本呈序列关系，滤波器移动步长为1，窗口范围为至表示上文第p个词语的词嵌入表示，表示上文第p+K-1个词语的词嵌入表示，则有：其中，表示当前窗口移动到以第p个词为首时产生的特征，卷积操作提取的上文特征mpre∈RP-K+1，RP-K+1表示卷积运算后提取的特征向量维度，并且P-K+1＜P，表示第p个词语到第p+K-1个词语的词向量，b1表示偏置，若使用H个尺寸相同的卷积滤波器，则有：Mpre＝[mpre1,mpre2,...mpreH]其中，Mpre∈RP-K+1×H，Mpre表示使用H个尺寸相同的滤波器后卷积运算提取的上文特征，RP-K+1×H表示使用H个尺寸相同的滤波器后卷积运算提取的特征向量维度，经由最大池化操作，则有：其中，表示最大池化得到的上文最终特征表示，RH表示最大池化操作后最终的特征向量维度；下文的特征提取方法与上文完全一致，下文经过最大池化提取的特征最大池化后将不同尺度的卷积核提取的特征进行拼接；步骤6中特征扩展融合，是将步骤5提取到的表格及其上下文特征作为集合S，通过求解集合S的非空子集，并对每个非空子集内的特征进行平均池化，从而得到多个扩展特征；此后将多个扩展特征向量与可训练的类别向量内积运算的结果求和，从而得到特征融合结果进行表格分类；Set表示提取的表格和上下文特征集合，表示最大池化后表格的最终特征表示，表示最大池化得到上文最终特征，表示最大池化得到的下文最终特征，Se表示集合S的第e个非空子集，e∈[1,num]，num表示非空子集的个数，则有：num＝2lenSet-1其中，len表示求集合内元素个数的函数，Set中的元素为3，非空子集的个数为7；表示Se内的特征向量求平均，则有：其中，average是对多个特征向量求均值的函数，除表格和上下文的原始特征，额外获得了4个表格和上下文的交互特征，交互特征将表格和上下文进行关联；设可训练的矩阵Wcls表示表格一个类别，1≤cls≤|class|，|class|表示表格类别总数；表示与第cls个表格类别的匹配得分，则有：其中，b2为偏置；将所有特征对第cls个表格类别的匹配得分之和，作为针对第cls个表格类别的特征融合结果Scorecls，则有：最终所有特征对所有类别进行特征融合Score，则有：Score＝[Score1，Score2...Score|class|]其中，Wα、Wβ、Wγ均为权重矩阵，b3、b4、b5均为偏置，α、β、γ分别表示上文、下文、表格的特征权重，A表示特征权重自适应融合的结果，Apre,Afol,Atable分别为表格前文、后文和表格内容的特征权重,则有： A＝Apre+Afol+Atable。

全文数据：

权利要求：

百度查询：中国矿业大学(北京) 一种面向证券信息披露长文档的表格分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种面向证券信息披露长文档的表格分类方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务