买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆邮电大学
摘要:本发明公开了一种面向入侵检测特征分析的多解释融合算法。针对不同的解释方法基于各自独特的机制来阐释模型的预测,它们往往关注不同的方面,并可能导致提供差异化的重要特征解释,解释结果的这种不一致性也为评估模型的解释能力带来了困难。本发明采用三种评价解释方法性能的指标作为权重值,融合了SHAP、LIME和PFI三种事后解释方法。有效的提取不同解释方法视角的优点并互相弥补不足,解决了不同的解释方法给出的观点不尽相同的问题,更好地提高入侵检测系统的透明性。
主权项:1.一种面向入侵检测特征分析的多解释融合算法,步骤如下:1.对原始威胁网络流数据进行独热编码、特征缩减、数据标准化等处理,并对处理后的威胁数据集按照训练集:测试集7:3的比例进行划分;2.将划分好的数据集输入随机森林模型中进行训练,分别使用基于SHAP的解释方法,基于LIME的解释方法,基于PFI的解释方法进行解释;3.分别计算三种方法一致性分数,复杂性分数和可靠性分数;4.进行多解释方法融合计算,以三种评价解释方法性能的指标作为权重值,融合SHAP、LIME和PFI三种解释方法;步骤1:对原始威胁网络流数据进行独热编码、特征缩减、数据标准化等处理,并对处理后的威胁数据集按照训练集:测试集7:3的比例进行划分;对网络流数据进行预处理,进行标签独热编码,量化名义特征,剔除掉冗余和无意义的特征,最后输出77维度特征的数据集,并对预处理后的威胁数据集按照训练集:测试集7:3的比例进行划分。步骤2:将划分好的数据集输入随机森林模型中进行训练,分别使用基于SHAP的解释方法,基于LIME的解释方法,基于PFI的解释方法进行解释;使用划分好的训练集对随机森林模型进行训练,首先采用LIME算法对模型进行解释,LIME算法通过在模型的预测周围创建一个局部的数据集并在这些数据上训练一个简单模型来近似原始复杂模型的行为,这使得它能够解释任何模型的单一预测。具体实现公式如下:ξx=argming∈GLf,g,wx+Ωg其中,ξx表示对实例x的解释,g是实例x对应的可解释模型,argming∈G表示在所有可能的解释模型G中找到使得目标函数最小的那个g,f表示原始模型,wx表示采样数据与原始数据的接近程度,Lf,g,wx表示损失函数,衡量解释模型g在权重函数wx加权下对原始模型f预测结果的逼近程度,Ωg表示模型g的复杂度。按照上述方法,在LIME中使用新的数据集来训练模型g,该模型被认为学习了原始模型f的局部行为,以实现在这一局部的预测解释。其次采用PFI算法对模型进行解释,该方法通过排列输入特征值来计算拟合模型的预测误差变化。具体来说,首先将模型在某个数据集上的预测结果保存下来,然后随机打乱数据集中某个变量的值,再次使用模型进行预测,并比较两次预测结果的差异。如果打乱某个变量后模型的预测结果发生了显著变化,那么可以认为这个变量对模型的预测结果有重要影响。PFI算法有三个步骤。输入训练过的模型特征矩阵X,目标向量y,误差度量步骤1.估计原始模型错误步骤2.对于每一个特征j∈{1,…,p},通过排列数据X中的特征j来生成特征矩阵Xperm。这样断开了特征j和真实结果y之间的关联。估计误差基于排列后数据的预测。计算排列特征重要性,作为商FIj=epermeorig或差异FIj=eperm-eorig;步骤3.对特征按照FIj的大小进行排序;最后使用SHAP算法进行解释,SHAP的基础理论源自Shapley值,它设计了一种方法来评估个体玩家如何在一个协作游戏中为成功做出贡献。Shapley值被认为是特征值对预测的平均贡献: 其中:φjval表示特征j的Shapley值,它表示特征j对预测结果的平均边际贡献。表示对所有不包含特征j的特征子集S进行求和。S表示特征子集,表示S是不包含特征j的所有特征的一个子集。|S|表示集合S的个数,|S|!表示集合|S|的阶乘。p是总特征数,p!是总特征数的阶乘,valS∪{j}是当特征子集S加上特征j时的模型预测值,valS是特征子集S时的模型预测值,valS∪{j}-valD表示特征j对特征子集S的边际贡献。SHAP通过计算每个特征的贡献来应用于实例x的预测: 其中,gz′是解释模型的输出,Φ0是基准值,表示没有特征时模型的预测值,通常是所有样本的平均预测值。是解释模型的加和部分,表示每个特征对预测结果的贡献的总和。Φj是特征j的SHAP值,表示特征j对预测结果的边际贡献。z′是特征j的指示变量,表示特征j是否被包含在模型中,M表示特征的总数。步骤3:分别计算一致性分数,复杂性分数和可靠性分数,为三种方法融合做准备;首先对三种解释方法分别进行一致性计算,一致性度量了模型中每个特征的重要性与解释方法给出的特征重要性得分的接近程度。具体公式如下: Emi代表模型所给出的特征i的特征贡献得分,代表第d个样本的解释方法所给出的特征i的特征贡献得分,n代表特征数量,为第d个样本对应第k种解释方法的一致性分数。进一步地,进行复杂性计算,复杂性主要考虑使用更少的特征来描述预测结果的解释,使用大量特征来描述预测结果的解释是相对复杂的,无法从中提炼出最具辨识度的分类特征。其中第d个样本对应第k种解释方法的复杂性分数计算定义为: 表示样本d第i个特征的特征贡献度占全部征的特征贡献度的比值。 fid表示样本d第i个特征的特征贡献度。进一步地,进行可靠性计算,对于任意数据样本,首先测量从它到所有其他样本点的欧几里德距离,然后分别计算出在预测结果一致和不一致的条件下选择前10%的相邻数据点作为对比,以此来衡量解释的可靠性。其公式如下: 为第d个样本在预测结果一致性条件下的可靠性,为样本在预测结果不一致性条件下的可靠性,表示通过解释法给出样本的相邻数据的特征重要度,k是特征的数量。表示通过解释方法给出样本的不同类别相邻数据点的特征重要性。m表示前10%的相邻数据点。接下来将原始数据和标准化,并使用这些标准化值来计算出综合的可靠性: 其中为样本的相同类别的数据点,为样本的不同类别的数据点。为最终计算后的可靠性得分。步骤4:进行多解释方法融合计算,以三种评价解释方法性能的指标作为权重值,融合SHAP、LIME和PFI三种解释方法;首先,分别计算出每种方法下对应的一致性分数、复杂性分数和可靠性分数的样本均值,对于每种类型的攻击,定义一个包含SHAP、LIME和PFI方法计算特定模型下所对应的一致性分数C、复杂性分数S和可靠性分数U的3*3矩阵A=aij,矩阵的列分别对应一致性得分、复杂性得分和可靠性得分。矩阵的行对应于三种解释方法:SHAP、LIME和PFI。分别将三个分数统一进行归一化操作: 归一化后,求对应每种解释方法的三个评价指标维度下的综合解释性表现,k∈{0,1,2}分别表示SHAP、LIME和PFI三种解释方法。这个得分反映了三个评价指标维度下的综合解释性表现: 其中Wj表示第i个指标的客观权重: Mj表示信息量,第j个指标在整个指标体系中的作用越大,就应该给其分配更多的权重: Rj是指标的相关系数冲突以相关系数的形式来表现,rij表示指标i和j之间的相关系数: Vj是指标变异性,使用标准差来表示各指标的内取值的差异波动情况,标准差越大表示该指标的数值差异越大,越能放映出更多的信息,该指标本身的评价强度也就越强,应该给该指标分配更多的权重,xij为对应第i个样本的第j个评估指标,为第j个评估指标的样本均值。 接下来,将这些分数分配给每个方法所给出的特征重要性分数:Sk=gkTkTk表示在方法k下获得n个特征的重要性得分。为了确保解释维度的一致性,将每种方法给出的特征重要性行归一化操作: 是归一化后的方法k下第i个特征的重要性得分。是原始的特征重要性得分。minSk是Sk中的最小值,maxSk是Sk中的最大值,是归一化后Sk。最后,将三种方法的每个特征的加权重要性相加,得到最终的分数Sfinal: 并对它们进行再次排序,得到最终的排序后的解释结果。
全文数据:
权利要求:
百度查询: 重庆邮电大学 面向入侵检测特征分析的多解释融合算法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。