首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于异构指针和长变压器模型的企业年报挖掘方法 

申请/专利权人:南京争锋信息科技有限公司

申请日:2024-04-18

公开(公告)日:2024-06-25

公开(公告)号:CN118093786B

主分类号:G06F16/33

分类号:G06F16/33;G06F16/35;G06F16/335;G06F40/189;G06F40/211;G06F40/30;G06N3/0455;G06N3/0464;G06N3/0442;G06N3/084

优先权:

专利状态码:有效-授权

法律状态:2024.06.25#授权;2024.06.14#实质审查的生效;2024.05.28#公开

摘要:本发明公开了一种基于异构指针和长变压器模型的企业年报挖掘方法,包括:收集和整理企业年报数据;将收集到的企业年报数据进行预处理,形成txt文件形式,针对得到的txt文本信息打上对应的标签,形成数据集;在txt文本信息的基础上,使用异构指针网络对文本信息进行编码使其可以自动聚焦于对分类有决定性影响的词,以捕捉句子中最重要的语义信息;在语义信息的基础上使用transformerXL网络增强上下文之间的依赖性;为了提高企业年报的分类效果与效率,引入多任务学习的方法,通过分配不同的企业年报数据分类任务的权重进行打分计算,得到具有可解释性的分类效果。

主权项:1.一种基于异构指针和长变压器模型的企业年报挖掘方法,其特征在于,执行以下步骤S1-步骤S4,完成企业年报数据的分类:步骤S1:收集PDF格式的企业年报数据,所收集的企业年报数据的获取途径及信息使用符合相关法律和规定,针对企业年报数据进行预处理,包括Word格式转换、句子划分、排版处理,转换形成txt格式文件;针对得到的txt格式文件打上对应的标签,形成数据集;步骤S2:将txt格式文件中的句子转换为词向量,针对词向量,分别使用BiLSTM网络、指针网络、TextCNN网络提取语义信息,并分别对三个网络的输出进行加权平均,以聚焦于对分类有决定性影响的词,捕捉句子中重要的语义信息;步骤S2的具体步骤如下:步骤S2.1:将txt格式文件中的词映射成词向量的形式,具体如下式: ;式中,为独热编码向量,表示txt格式文件中的词,ei为词向量;步骤S2.2:针对步骤S2.1所获得的词向量,采用BiLSTM网络,以同时捕捉上下文信息和重要性,获得BiLSTM网络的输出ha;步骤S2.3:针对步骤S2.1所获得的词向量,采用指针网络得到更进一步的句子表示,获得指针网络的输出hb;步骤S2.4:针对步骤S2.1所获得的词向量,采用TextCNN网络,TextCNN网络中使用多个卷积运算生成多个特征,获得TextCNN网络的输出hc;步骤S2.5:针对BiLSTM网络、指针网络、TextCNN网络的输出进行加权平均,具体如下式: ;其中,ha,hb,hc分别代表BiLSTM网络、指针网络、TextCNN网络的输出,Wa,Wb,Wc为每个网络的加权平均权重比例,b表示偏置项,为加权平均结果;步骤S2.6:将加权平均结果经过一个全连接层后,送入softmax分类器: ;式中,h为权重矩阵,b表示偏置项,表示输出的分类结果;为防止过拟合现象出现,使用dropout作正则化处理: ;其中,w为激励函数,表示元素相乘,r是一个满足概率为p的伯努利分布的矩阵,b表示偏置项,y为正则化处理后的输出;步骤S3:将步骤S2所获得的语义信息输入transformerXL网络,以增强上下文之间的依赖性;步骤S4:针对步骤S3的输出,采用MTL-Att-bert模型进行多任务学习,所述的MTL-Att-bert模型由带注意力机制的多任务学习模型结合bert模型构成;通过分配不同的企业年报数据的分类任务的权重进行打分计算,获得企业年报数据的分类结果。

全文数据:

权利要求:

百度查询: 南京争锋信息科技有限公司 一种基于异构指针和长变压器模型的企业年报挖掘方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。