首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种用于多元时序数据分类的模糊认知图神经网络建模方法及装置 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:大连理工大学

摘要:本发明属于数据处理技术领域,提出了一种用于多元时序数据分类的模糊认知图神经网络建模方法及装置,具体为:收集多元时序重症监护数据及相应的标签数据,应用表征学习模型提取具有区分性和代表性的多元时序表征数据。采用不同长度的时间窗口划分表征数据,并通过全局最大池化操作获取对应的实例级表征数据。基于相似性的尺度筛选原则确定用于集成建模的多尺度表征数据集合。针对筛选结果,利用极限梯度提升决策树对特征重要性进行量化识别后进行重排序。将重排序数据划分为多个特征子集,建立分层宽度网络模型,实现对应尺度下的分类预测。使用加权平均方法融合所有基模型的分类预测结果,得到最终的决策输出。

主权项:1.一种用于多元时序数据分类的模糊认知图神经网络建模方法,其特征在于,包括以下步骤:S1、采集数据并对数据进行处理,形成多元时序数据样本集;采集多元时序数据形成多元时序数据样本集,将数据样本集的输入序列表示为包含描述多元时序的特征信息;将数据样本集的输出序列表示为包含描述判断多元时序数据的标签信息;其中,n为样本个数,t为多元时间序列中特征观测的持续时间,m为样本的特征维数,o为标签数;S2、基于多元时序数据样本集,利用动态时间规整对时间序列特征进行相似性分析,根据分析结果,对时间序列特征进行划分,形成多个时间序列特征分组;对多元时序数据样本集利用动态时间规整对时间序列特征进行相似性分析,对于给定的多元时序数据xd,i=[xd,i,1,xd,i,2…,xd,i,m],xd,i,j表示第d个样本的第j个特征在第i时刻的特征值,其中n为样本个数,t为多元时间序列中特征观测的持续时间,m为样本的特征维数,用表示第d个样本第j个特征在所有时刻上的值;计算Xd中两个特征单变量和之间的相似度,时间序列和之间的DTW距离计算公式如下: distxd,t,a,xd,t,b=|xd,t,a-xd,t,b|其中,distxd,t,a,xd,t,b表示时间点xd,t,a和xd,t,b的欧式距离,且dtwxd,1,a,xd,1,b=0, 通过上述公式计算第d个样本Xd中所有变量时间序列两两之间的相似关系,通过设定阈值θDTW,将阈值θDTW与特征变量序列之间的DTW距离进行对比,得到第d个样本Xd的相似矩阵cd,j,k表示第d个样本中第j个特征与第k个特征是否相似,具体计算公式如下: 若第d个样本中第j个特征与第k个特征相似即cd,j,k=1,则针对该样本特征j和特征k被划分为一个类,若第d个样本中第j个特征与第k个特征不相似即cd,j,k=0,则针对该样本特征j和特征k被划分为不同类别;同样,所有样本均用DTW算法进行特征聚类,含有n个样本的多元时序数据的累加相似矩阵cj表示综合考虑所有样本的特征相似度后第j个特征与其他特征是否相似,具体地,cj,k表示第j个特征与第k个特征是否相似,累加相似矩阵C具体计算如下: 随后采用层次聚类的方法对累加相似矩阵C中的各个特征进行聚类,得到适合整个数据集的特征分组;首先将累加相似矩阵C中每一个特征视为单独的一个簇,形成初始的聚类分组;然后利用欧式距离计算每个簇之间的相似性,合并相似度最高的簇,同时计算两个簇之间所有特征之间的距离,将这些距离的平均值作为两个簇之间的距离,更新相似性矩阵;通过反复计算逐渐减少簇的数量,形成一个层次结构;S3、根据特征分组,并定义特征作用持续时间t1,通过时序模糊认知图生成概念节点;根据多元时序数据的划分结果,将原始多元时序数据样本集X经过特征相似性分析后分成N组V=V1,V2,…,VN,完成特征划分后,通过对不同特征赋予不同的权重构建新的概念节点,权重反映每个原始特征在概念节点中的贡献程度,同时时间序列数据中各个时间点之间是相互关联并且影响的,为了揭示特征在不同时刻的关联关系,还需要考虑过去t1时刻各概念节点对当前时刻生成的概念节点的影响;假设序列间跨时间维度的作用关系延续t1个时刻,具有时间记忆的概念节点表达式如下: 其中,表示样本d在第t个时刻第l个分组中生成的概念节点,Wl表示生成概念节点时原始数据的分组特征重要度组成的权值矩阵表示样本d在第t个时刻第l个分组中原始的数据,表示生成样本d的概念节点时,t-t1时间间隔前概念节点对当前时刻概念节点的重要度权重,σx函数为sigmoid函数,该函数将输出范围映射在[0,1]之间,将预测值转换为概率: S4、构建具有窥孔连接方式的双向长短时记忆网络,将更新后的概念节点作为模型的输入,并利用损失函数训练权重,形成具有概念节点时序权重的学习模型;利用能同时处理过去和未来信息的双向长短时记忆网络和能捕捉长期依赖关系的窥孔式长短时记忆网络设计分类模型;该模型在传统长短时记忆网络模型的基础上引入窥孔式连接,将遗忘门和输入门中引入对上一时刻细胞状态,增强了对历史信息的记忆,同时在输出门部分接受了细胞更新后的状态,进一步提升了信息传递的效率;同时针对多元时序数据,特征之间可能存在长期依赖关系的情形,将后续数据作为另一种输入,从而更深入地挖掘不同特征之间的交互作用,因此模型中引入双向思想,采用正、反向同时对每个时刻的输出进行预测;正向层从1时刻到t时刻进行正向计算,将得到的结果保存为前向隐含层的输出,在反向层沿着t时刻到1时刻进行反向计算时,将得到的结果保存为后向隐藏层的输出,最终通过对正向层输出和反向层输出进行加权得到每个时刻的最终输出;将概念节点作为模型的输入,分别输入正向层和反向层,最终的预测结果通过正、反两层的输出加权得到;对于正向层,正向层遗忘门的作用是通过当前时刻的正向输入正向层上一时刻的输出及正向层上一时刻的细胞状态决定从细胞状态中遗忘哪些信息,同时使用sigmod函数将遗忘门的输出控制在[0,1]区间内,正向遗忘门的函数表达式: 其中,表示正向遗忘门中需要训练的权重和偏置,σ·为sigmod激活函数,w1是输入层与正向层之间的权重,输入层与正向层之间的偏置;正向输入门的作用是通过当前时刻的正向输入正向层的上一时刻的输出及正向层上一时刻的细胞状态决定当前输入信息是否被保留到记忆细胞中,即控制此刻输入的信息对记忆细胞的影响;正向输入门的函数表达式如下: 其中,表示正向遗忘门中需要训练的权重和偏置;与此同时,构建当前时刻细胞状态需要增加的候选向量并通过双曲正切函数将候选向量的值映射到[-1,1]之间,具体计算公式为: 其中,表示生成正向候选向量时需要训练的权重和偏置;根据当前时刻遗忘门输出和上一时刻的细胞状态的乘积,以及输入门输出和当前时刻候选向量的乘积,得到此时刻的记忆细胞,即LSTM结构中负责储存和传递信息的核心: 最后一个门结构为输出门,输出门先通过一个sigmod变换决定输出什么信息再结合tanh变换处理细胞状态,得到确定的输出输出门的函数表达式为: 其中,表示正向输出门中需要训练的权重和偏置;综上所述,第i个时刻的隐藏层输出可由当前时刻的输入和上一时刻的隐层状态输出及上一时刻的细胞状态输出共同计算得到,使用F·概括第i个时刻的窥孔式LSTM的内部运算过程: 因此反向层第i时刻的输出计算公式如下: 其中w2和为输入层和反向层之间的权重和偏置;正向层和反向层之间没有连接,各自的信息传递方向不同,将两层中计算后的状态都传入输出层,得到当前时刻的最终的输出yd,i; 其中w3是前向层和输出之间的权重,w4是后向层和输出之间的权重,by为偏置;分类模型的最终预测值为第t时刻的输出yd,t,将其与真实值之间的误差通过提出的损失函数计算,以最小化目标函数OF训练确定模型参数; 其中,γ是焦点因子,用于调节难易样本的权重,越大表示对难以分类的样本越关注;α是平衡参数,用于平衡正负样本的权重,设置为少类别样本数量与多类别样本数量之间的比例,yd,t为样本d经过分类模型的最终预测值,Yd则为样本d的真实标签;用θ表示模型中需要训练的参数,包括Wii=1,2,…,N、w、w1、w2、w3、w4、by;采用自适应矩估计算法作为参数优化算法,用于更新分类模型中的参数;S5、基于时序权重,设置不同的特征重要度阈值和时刻重要度阈值挑选重要时刻特征,构建AFS决策树,从而形成多元时序数据的动态语义规则;设定规则阈值和其中为特征重要度阈值,为时刻重要度阈值;最近一个时刻的概念节点由第t时刻各个特征分组的输入数据和过往t1时刻的概念节点共同作用得到;针对最近一个时刻第i个概念节点vd,t,若特征权重满足以下条件,则表明最近一个时刻的特征j即被选中: 其中,表示第l个概念节点中第g个特征的重要权重,gl表示组成第l个概念节点的特征个数;若历史概念节点满足以下条件,则表明概念节点ve在第t-t′时刻的值即被选中: 其中,表示生成样本d的概念节点时,t-t1时间间隔前概念节点对当前时刻概念节点的重要度权重,t1表示特征作用持续时间;针对被选中的历史概念节点仍可根据上式公式选择符合阈值的影响该概念节点的当前时刻特征值及历史节点,迭代此过程,直到没有新的历史概念节点被选择;由此可得构成影响最近时刻的概念节点特征共Q个,构建规则特征U=[U1,U2,…,UQ],特征U的每个因素都含有时序信息的特征值,即Uj的含义是某个时刻的某个特征值,因此根据规则特征U可从数据集D中得到用于提取规则的新的特征集DA和样本集u;DA={u1,Y1,u2,Y2,…,un,Yn} 其中ud,Ydd=1,…,n表示第d个样本,ud=[Ud,1,Ud,2,…,Ud,Q]代表此样本的规则特征,Ud,j代表此样本第j个规则特征,Yd代表此样本的类标签,n表示数据集DA中的样本数;构建决策树前,对连续属性进行模糊化,即对连续属性概念化,以便得到语义信息;针对规则特征Uqq=1,…,Q,将“小”、“中”、“大”作为特征的简单概念,分别表示为所有连续特征模糊化后的简单概念集合F可表示为: 特征fqq=1,…,Q属于第kk=1,2,3个简单概念的隶属度的表达式如下: 其中fquk表示样本uk的特征Uq取值,表示特征Uq在所有样本中取得的最大值,表示特征Uq在所有样本中取得的最小值,表示特征Uq在所有样本中取得均值,表示特征Uq与其平均水平之间的最大差异,用于衡量数据的分散程度或偏离程度,表示特征Uq与其平均水平之间的最小差异,用于衡量数据的集中程度或稳定性;利用多个单一属性进行逻辑连接形成更为复杂的属性,运用AFS逻辑运算规则生成复杂概念的集合EM*,其定义如下: 其中,I为简单概念的非空索引集合;表示fq的析取,表示所有的合取;基于简单概念与AFS结构可得到一致性隶属度函数;假设ξ=∑i∈Ifq∈EM*是一个复杂概念,其隶属度函数Aξu表示为: 其中,为简单概念fq的权重函数,可根据数据分布情况确定,Nu是样本被观测到的次数;构建AFS决策树的核心在于始终选择信息增益最大的节点进行分裂,以确保复杂概念信息量的增长速度最大化,即利用分割当前节点Ω,寻找最适合的简单概念组合,确保分割后节点与分割前节点Ω的信息量增益差值最大,即: 其中,表示当前节点Ω的信息增益,IΩ为当前节点Ω的信息量,为分割当前节点Ω后的加权信息量,据此得到分割当前节点的简单概念Fmax,其中IΩ和的计算方式如下: 其中,βΩ为集合EM*中的复杂概念,为第N层节点中ud的隶属度,vc∈Dc表示第c类输出样本的集合,表示当模糊概念fq分割当前节点Ω时,属于第c类样本的一致性隶属度;由此可得到使最大化的模糊概念,从F中删除Fmax,即:F=F\Fmax若模糊概念的一致性隶属度函数满足δ为设定的阈值,则根据AFS逻辑运算“∧”构建新的树节点Ω∧Fmax;如果当前节点的信息增益为负,即或者在模糊属性fq拆分Ω获得的子集为空集的情况下,停止扩展子节点,得到AFS决策树;此时,根节点到叶子节点的模糊属性为一条语义规则ξ;表1混淆矩阵 设计的模型主要用途是针对多元时序数据,执行分类任务并进行动态规则提取,因此,为考察二分类算法的效果,采用TP表示预测值和真实值均为正的样本个数,TN表示预测值和真实值均为负的样本个数,FN表示预测值为负,真实值为正的样本个数,FP表示预测值为正,真实值为负的样本个数,表1为预测值和真实值不同属性的混淆矩阵;表1中二分类问题中只会出现以上四种情况,因此下述指标基于这四个结果进行定义;1准确率Accuracy:预测正确的占比; 2精确率Precision:实际为正,预测也为正的样本占所有预测为正的样本比例; 3召回率Recall:实际为正,预测也为正的样本占所有实际为正的样本比例; 4F1-score:精确度和召回率的调和平均值,用于综合评估模型的性能; 5ROC曲线及AUROCROC曲线以假阳率为横轴、真阳率为纵轴绘制而成;ROC曲线是在不同分类阈值下对模型性能的可视化展示,AUROC是ROC曲线下方的面积,用来量化模型的分类性能;AUROC值越大,表示模型的性能越好;6PRC曲线及AUPRCPRC曲线以召回率为横轴、精确率纵轴进行绘制;PRC曲线越靠近右上角,模型性能越好;AUPRC是PRC曲线下的面积,用于综合评价模型在不同召回率下的平均精度;AUPRC值越高,模型的性能越好。

全文数据:

权利要求:

百度查询: 大连理工大学 一种用于多元时序数据分类的模糊认知图神经网络建模方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。