一种将金融文本结构化为表格的深度学习模型的建立方法

导航：龙图腾网> 最新专利技术> 一种将金融文本结构化为表格的深度学习模型的建立方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京快确信息科技有限公司

摘要：一种将金融文本结构化为表格深度学习模型的建立方法，它涉及信息抽取转化技术领域，具体涉及一种将金融文本结构化为表格深度学习模型的建立方法。它包含以下步骤技术方案：步骤一，预处理，数据清洗，文本分词、形成字符和词，表格行标签；步骤二，词向量化；步骤三，字符编码层；步骤四，字符编码和词编码的连接层；步骤五，列信息的预测；步骤六，行信息的预测的前处理；步骤七，行信息的预测；步骤八，总loss函数的设置；本发明提出了一种多任务的神经网络，通过一个模型，直接将非结构文本转换为表格数据，在金融的数据领域，达到了商业化的标准，相比于Pipeline的形式，其提高了3‑5个百分点，降低了pipeline的误差传递的问题。

主权项：1.一种将金融文本结构化为表格深度学习模型的建立方法，其特征在于：它包含以下步骤技术方案：步骤一，预处理，数据清洗，文本分词、形成字符和词，表格行标签；步骤二，词向量化；步骤三，字符编码层；步骤四，字符编码和词编码的连接层；步骤五，列信息的预测；步骤六，行信息的预测的前处理；步骤七，行信息的预测；步骤八，总loss函数的设置；所述的步骤一预处理，数据清洗，将不规则的数据进行清洗和替换，包括“全角半角转化”以及去除掉特殊的符号包括“表情符号”；建立多维度的分词方法，对文本信息进行分词切割，第一个维度是通过“空格，逗号，分号，Tab键”明显分割符”；对文本分成短句，第二个维度是采用正则表达式，提取文本中的“字符、数字”要素，将短句分割为“字符和数字”中粒度的词，第三个是采用jieba分词，对字符和数字作更细粒度的切割，由此形成三种粒度的词，分别是wordc,wordm,words，对应三种粒度的词信息，由于表格信息是一个N*M的二维信息，将二维信息拆分成两个维度的子任务，对任意一个单元格内的信息，都分为列位置的预测和行位置的预测，列位置与列名信息关联，即命名实体识别的任务，将每个要素标签化为“列名”信息，对于行信息的标签化，将每一行的信息标签化为“01”分类问题，当符合表格行的所有信息时标签化为“1”，不符合时标签化为“0”；所述的步骤二基于wordc,wordm,words，三种不同尺度的分词，对该分词融合词的位置信息后进行向量化，首先采用word2vec，对不同尺度的分词进行向量化，获得每个分词的向量特征，融入分词的位置结构信息，对每个分词的位置进行结构编码，只有一行或多行文本的情况，构建每个词在文本中的位置信息，并且用邻接矩阵表示每个分词在文本的行、列的位置信息,邻接矩阵定义为当两个词垂直位置相同，或左右相邻时A[i,j]＝1，否则A[i,j]＝0，有三种不同粒度的分词，故有三个不同的邻接矩阵Ac[i,j]，Am[i,j]和As[i,j]，采用GCN对分词信息进行向量化训练；由于每段文本有三种不同粒度的分词，采用如下的GCN公式：其中，A是邻接矩阵，I是单位矩阵；用来归一化Ht、Ht+1分别表示图中各节点在第t和t+1层的编码；Wt为待学习的参数；H0＝X，X为初始的输入，通过GCN的特征提取公式，对三种词向量进行编码，获得三种不同粒度的词的向量编码，分别为Hc，Hm和Hs；所述的步骤三对字符层的编码，采用预训练的Albert模型，在上面拼接一层BiLSTM层，作为embedding矩阵TE；所述的步骤四字符编码后形成每个字的编码矩阵TE，三种不同粒度的分词向量化后形成词的编码，采用GAT算法，对分词编码和字符编码进行融合，将分词直接拼接到字符的后面，假设字符的长度为N，分词的个数为M，构建出一个N+M*N+M的邻接矩阵K，当词包含字符的信息时候K[i,j]＝1，否则K[i,j]＝0，基于三种不同的分词，构建出三种领域矩阵Kc，Km和Ks，利用GAT算法，对分词和字符编码进行拼接，其中GAT操作方法如下，在GAT操作中，第t层的输入是一个点集Ft＝{f1,f2,...,fN}，同时存在一个邻接矩阵G，使用带有多头的GAT，计算公式如下：其中，f’i∈RF表示节点i的输入特征；f’j∈RF’表示节点j的输出特征；||表示拼接操作；σ表示非线性激活函数；vi表示i的邻接顶点；表示节点i和节点j连接的边的权重；Wk∈RF‘×F表示线性变换矩阵，用于对特征进行线性变换；和分别是前向反馈神经网络的权重参数；使用G来屏蔽αk相应位置；分别通过t＝1，2，...，N得到最后一层的输出，然后计算最后AF对应GAT的结果：根据以上的公式，获得三个不同的分词和字符融合向量矩阵Qc,Qm和Qs；联立①②③三个向量矩阵再和字符向量二次融合，聚合公式为：Z＝W1H+W2Qc+W3Qm+W4Qs其中W1、W2、W3、W4为待训练的参数矩阵，H为形成字符的最终向量矩阵；所述的步骤五对文本进行系列标注，以BIO的形式对文本的字符进行标注；并且采用交叉熵函数对列信息进行训练，其loss函数定义为NER_loss；所述的步骤六基于列信息预测的结果，对字符向量进行提取；考虑到下游任务的需要，对确定为实体的字符信息进行提取，考虑到中文每个词的长度不一的原因；为形成对行信息预测的基本向量信息，采用mean的方法对每个词包含的字符向量进行聚合，其公式为由此获得每个列的词向量，对每个列信息进行可编辑的组合，形成行信息，这个过程是一个可编辑的过程，针对通用域，直接采用每个列信息自由组合的方式，形成各种行信息的组合，假设有n列，在一段文本中提取出Mi个第i列的实体信息，则总共形成SUM＝M1*M2*...*Mn种行的组合信息，补充信息：针对特殊的私有领域，把该领域的一些规则加入到形成行信息组合中，强制行信息的形成符合该领域的规则要求，这是一个可自由编辑的模块；所述的步骤七首先对随机组合的行的每个词向量进行编码，基于形成的每个词的向量，作为Graph网络的节点向量，再次采用GAT操作，对自由组合的每一行中的列信息进行编码学习，其操作方法与步骤四相同，与步骤四不同的只是邻接矩阵G不同；由此形成每行的向量信息R，训练过程中，由于行信息是随机组合，当“随机组合的行”在“标注”的行信息内时，结果为1，否则为0，这样与预处理的行信息一致，通过“随机组合的预测“和“标注的01”对比，采用交叉熵函数对行信息进行训练学习,其loss定义为structure_loss；所述的步骤八中列和行的损失函数加权获得总损失函数Loss＝NER_loss+α*structure_loss，作为模型的总损失函数，其中α是一个可调的超参数，基于总损失函数，训练模型；最后获得模型的结果。

全文数据：

权利要求：

百度查询：北京快确信息科技有限公司一种将金融文本结构化为表格的深度学习模型的建立方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种桩基注浆用浆料搅拌设备

下一篇：一种电子水泵噪声振动测试台架装置及噪声测试方法

相关技术

一种桩基注浆用浆料搅拌设备

一种电子水泵噪声振动测试台架装置及噪声测试方法

一种数据传输方法、装置、设备及计算机可读存储介质

一种多级循环递进式抽奖系统

用于使用子图片对特征进行视频编码的系统和方法

一种多类型储能设施的配置优化方法、装置、设备及介质

基于磷光体的时间饱和的颜色可调的pcLED

可冲散无纺布制备新工艺及应用

时间校准方法及装置、车辆、服务器和存储介质

一种混凝土养护设备及养护方法

一种氧化亚硅负极材料及其制备方法

一种潮气量检测系统及装置

表格相关技术

基于异质表格信息融合的病情严重程度预测方法_中国科学院自动化研究所_202411174672.4

一种基于大语言模型的表格内容RAG客服问答方法_杭州电子科技大学_202410876235.0

一种将Excel表格数据导入数据库的方法_吉安伊戈尔磁电科技有限公司_202410849360.2

表格的重构方法和装置、存储介质及电子装置_浙江大华技术股份有限公司_202110867193.0

游戏中表格数据查询的方法、装置、存储介质及电子设备_北京乐意无限科技有限公司_202410820064.X

来自剪贴板缓冲区的智能表格粘贴_微软技术许可有限责任公司_202280088105.X

网页表格数据的处理方法、装置、服务器及存储介质_上海擎创信息技术有限公司_202410775336.9

一种将金融文本结构化为表格的深度学习模型的建立方法_北京快确信息科技有限公司_202110415793.3

面向web服务的电子表格数据生成及维护方法和相关设备_厦门海迈科技股份有限公司_202110808722.X

表格图像的处理方法及设备_马上消费金融股份有限公司_202410271409.0

深度相关技术

深度补全视觉惯性定位方法、深度补全模型及视觉装置_电子科技大学(深圳)高等研究院_202410799529.8

多深度电治疗注射仪_深圳半岛医疗集团股份有限公司_202323639876.4

一种打磨深度控制装置_昆山奥马热工科技有限公司_202322840416.1

一种井下深度探测装置_山东省煤田地质局第三勘探队_202411194747.5

一种矿洞勘探用深度测量装置_山东省地矿工程集团有限公司_202410813160.1

一种棉壳深度发酵设备_新疆前海农场生物科技发展有限公司_202323296543.6

基于深度学习的肿瘤组织溯源方法及设备_苏州可帮基因科技有限公司_202411196097.8

用于确定钻井岩屑深度的方法和系统_斯伦贝谢技术有限公司_202211665995.4

一种基坑监测用基坑深度测量装置_浙江中林勘察研究股份有限公司_202323654611.1

一种电镀废水深度处理装置_金华华鑫涂层科技有限公司_202323471121.8

化为相关技术

一种秸秆转化为葡萄糖-1-磷酸的一锅反应方法_重庆科技大学_202410796564.4

一种利用酵母菌将木糖转化为木糖醇的方法_河南豫鑫糖醇有限公司_202410998034.8

一种将金融文本结构化为表格的深度学习模型的建立方法_北京快确信息科技有限公司_202110415793.3

一种Mxene基复合材料及其制备方法和应用、一种催化硝酸盐转化为氨的方法_昆明理工大学_202410749023.6

诱导多能干细胞分化为CD34⁺造血干/祖细胞的培养基组合_深圳市三启生物技术有限公司_202310292114.7

一种在火星上由二氧化碳转化为氧气和碳材料的制备系统_宋维宁_202410675888.2

方馒头转化为圆馒头的设备及其加工工艺_万杰智能科技股份有限公司_202210139866.5

将氰化铜转化为氧化铜的方法及其系统_赛安可公司_202280090912.5

用于将轻质烷烃转化为柴油的方法_菲利普斯66公司_202311247817.4

一种将硫化氢水溶液转化为硫酸的方法_托普索公司_202380018720.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种将金融文本结构化为表格的深度学习模型的建立方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务