买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京工商大学
摘要:本发明公布了一种基于因果推断的本科生毕业去向预测方法与可视分析系统。预测方法包括:数据预处理与FDAP数据集构建、对FDAP数据集进行特征增强操作得到FDAP特征集、应用基于随机森林和因果推断的特征选择方法进行特征筛选、构建基于多层感知机的本科生毕业去向预测模型、对模型的有效性进行评估。该方法可以有效地处理FDAP特征集中的高维混合型数据和复杂非线性关系,提高预测本科生毕业去向的准确度。可视分析系统包括:数据导入和过滤视图、当前在校学生毕业去向预测视图、学业表现与毕业去向之间的因果和相关关系视图和指定专业毕业生的毕业去向分布视图。该系统可为学生和老师进行就业决策和学业表现分析提供个性化指导。
主权项:1.一种基于因果推断的本科生毕业去向预测方法,其特征是,数据预处理与FDAP数据集构建、对FDAP数据集进行特征增强操作得到FDAP特征集、应用基于随机森林和因果推断的特征选择方法进行特征筛选、构建基于多层感知机的本科生毕业去向预测模型CRFDL-MLP、对模型的有效性进行评估;包括如下步骤:A.数据预处理与FDAP数据集构建;将原始数据进行数据清洗和数据转换,并将经过预处理的数据集定义为毕业去向与学业表现FDAP数据集以下内容提到的数据均为二维表形式,每行代表一名学生记录,每列代表学生具有的属性;具体方法如下:A1:使用z-score方法来检测和处理异常值;具体地,首先计算原始数据集中每个属性课程成绩的均值μ和标准差σ,然后计算该属性中每条记录相对于该属性均值的偏差值,即z-score: 其中,xij是第i个学生的第j门课程的成绩,zij是对应的z-score值;根据高斯分布的性质,大约68%的数据应该位于均值加减一个标准差的范围内,而95%的数据应该位于均值加减两个标准差的范围内;因此,将超过3个标准差的课程成绩视为异常值,并将其从数据集中删除;A2:处理空缺值和删除冗余特征;在此步骤中,首先筛选并删除缺失“毕业去向”数据的学生学业数据,每行代表一个学生的学业数据;然后删除缺失学生课程成绩超过整列70%的课程特征,每列代表学生课程;最后,用0填充缺失数据;A3:将原始的“毕业去向”数据由细化的数据总结替换成5个毕业去向,包括读研、出国、就业、自由职业和待业,并使用one-hot编码进行转换,将5个毕业去向分别用5个二进制属性表示;A4:使用z-score标准化方法对学生学业表现数据集中课程成绩数据进行标准化,使得数据符合标准正态分布,即均值为0,标准差为1;具体步骤是,先计算原始数据集中每个属性的均值μ和标准差σ,然后对每个xij减去均值,再除以标准差,最后得到标准化后的zij,即z-score;由此得到FDAP数据集,包括本科生的个人信息、大学四年内的学业表现以及毕业后的首次就业去向信息;其中,1个人信息包括:学生ID、姓名、性别、专业、班级、生源地等;2学业表现信息包括:大学四年内每门课程的成绩、每门课程的学分、总学分、GPA平均绩点、CET4、CET6大学英语六级成绩等;3毕业去向包括:读研、出国、就业、自由职业和待业读研指的是在中国的研究生学习,而出国指的是在国外的研究生学习或就业,毕业年份,就业单位以及所属行业;FDAP数据集的矩阵形式如式2所示: 假设FDAP数据集中有n个学生的数据记录,每条记录有m个属性;其中,前k个属性是个人信息,中间l个属性是学业表现信息,最后5个属性是毕业去向信息;B.对FDAP数据集进行特征增强操作得到FDAP特征集;为了提高模型处理非线性关系的能力,对FDAP数据集中的学业表现成绩数据使用Yeo-Johnson转换将非高斯属性转化为更接近高斯分布的结构,经过处理得到FDAP特征集FDAPFeatureSet;Yeo-Johnson转换如公式3所示, 转换后得到的FDAP特征集矩阵如公式4所示: 其中,xnl代表学业表现数据式2中的Academic矩阵的第n行第l列的元素,ynl=fxnl,λl代表转换后的元素式4中的Academic′矩阵,λl是转换参数,可以通过最大似然法估计;式3中,Academic′是经过Yeo-Johnson转换后的学业表现数据,是转换后矩阵中的第n行第l列的元素,λl是第l个属性的转换参数;C.应用基于随机森林和因果推断的特征选择方法CRFDL进行特征筛选;1第一阶段:对FDAP特征集使用随机森林计算Academic′矩阵中每个属性相对于目标属性FDAP特征集中的Destination矩阵的重要性得分,如公式5所示: 其中,Ij是第j个属性的重要性得分,n是学生数量,fj是随机森林中的评估函数,是第i个学生的第j个属性的值,Di是第i个学生的目标属性值即Destination矩阵中的一行;对于每个属性,计算它与目标属性的相关性,然后取所有学生样本的平均值作为该属性的重要性得分;重要性得分越高,说明该属性对于预测目标属性毕业去向越有贡献;使用信息增益作为评估函数fj,信息增益计算方法如下: 其中,HDi是第i个学生样本的目标属性毕业去向的熵,是在给定第i个学生样本的第j个属性值的条件下,目标属性的条件熵;信息增益越大,说明属性值对目标属性的影响越大;熵和条件熵的计算方法如下: 其中,pk是第i个学生样本的目标属性为第k个类别的概率,Vj是第j个属性的取值集合,是第i个学生样本的第j个属性值为v的概率,是在给定第i个学生样本的第j个属性值为v的条件下,目标属性的熵;最终,将Academic′矩阵中每个属性的重要性得分降序排序,选取前90%个得分最高的属性,形成RF数据集,用于输入到第二阶段的DirectLiNGAM算法;RF数据集可以用如下矩阵表示: 其中,s是筛选出的属性的个数,j1,j2,...,js是按重要性得分降序排列的属性的索引;这个矩阵的意义是,只保留了对目标属性有较大贡献的属性,从而减少了数据的维度和噪声,提高了第二阶段DirectLiNGAM算法的效率和准确性;2第二阶段:使用DirectLiNGAM算法构建RF数据集的因果结构,得到因果效应矩阵;首先,将RF数据集中的所有属性作为候选属性集;对于候选属性集中的每个属性,使用核方法计算其与其他属性的差分互信息,以获得因果顺序,并选择差分互信息最大的属性作为当前因果关系的起点;差分互信息的计算公式如下: 其中,Yi和Yj表示RF数据集中的属性i≠j,表示Yi和Yj的核矩阵,|·|表示行列式;差分互信息可以衡量两个属性之间的非线性相关性,越大表示越相关;核方法是一种非参数的统计方法,可以用来估计非线性的互信息;每次选择因果顺序后,算法都会根据最大熵原则计算并更新当前因果关系之外的其他属性与起始属性的残差,以减少重复因果关系对下一次选择的影响;最大熵原则的含义是,在满足已知条件的情况下,选择熵最大的概率分布作为最优解;残差的计算公式如下: 其中,表示第i个属性的残差,Pi表示已经确定的Yi的父节点集合也就是影响Yi的其他属性,表示Yj对Yi的回归系数也就是属性Yj对属性Yi的影响程度;然后,从候选属性集中删除起始属性,并更新候选属性集,直到确定所有属性的因果关系;然后,计算出一个邻接矩阵来表示属性之间的因果关系;该矩阵的每个元素都表示一个属性是否与另一个属性存在因果关系;邻接矩阵的计算公式如下: aij为邻接矩阵A的元素,根据属性的因果系数来判断属性i和属性j是否有因果关系;如果不等于0,说明属性j对属性i有因果影响,那么邻接矩阵的元素aij就为1;如果等于0,说明属性j对属性i没有因果影响,那么邻接矩阵的元素aij就为0;最后,算法返回因果效应矩阵W,并根据W绘制因果网络G;因果效应矩阵的每个元素都表示一个属性对另一个属性的因果效应的大小;因果效应矩阵的计算公式如下:W=Z1,Z2,...,ZS=I-A-1B13其中,I表示单位矩阵,A表示邻接矩阵,B表示回归系数矩阵;因果效应矩阵W的元素wij表示第i个属性对第j个属性的总因果效应,包括直接和间接的影响;假设RF数据集矩阵包含四个科目,那么可以得到如下类似的因果效应矩阵: 这表示,科目1对其他科目都有正向影响,科目2对科目3和科目4有正向的影响,科目3对科目4有负向的影响;3在构建因果网络的过程中,进一步筛选出因果效应显著的关系中包含的属性,为下一步构建CRFDL-MLP模型提供训练集和测试集;首先,使用HSICHilbert-SchmidtIndependenceCriterion,希尔伯特-施密特独立准则检验,得出每对属性之间因果效应的显著性检验p值,表示属性之间的因果关系是否显著;HSIC检验的计算公式如下: 其中,X和Y是两个误差变量,n是学生样本数,K和L是分别由X和Y的核函数计算的Gram矩阵,H是中心化矩阵,即其中I是单位矩阵,1是全1向量,tr·是矩阵的迹运算;X和Y是原始数据RF的两个属性与邻接矩阵A的乘积之差,即:X=En,i=RFn,i-A·RFTn,i16Y=En,j=RFn,j-A·RFTn,j17其中,i和j是两个不同的属性索引,n表示所有的学生样本,E是误差变量矩阵,RF是原始数据矩阵,A是公式12得到的邻接矩阵,RFT是RF的转置,En,i和RFn,i分别表示E和RF的第i列,A·RFTn,i表示A·RFT的第i列;然后,设定一个临界值,通常p-value0.05表示因果效应显著;根据p值和阈值的比较,将因果效应矩阵中p-value≥0.05的元素设为0,以排除那些不显著的因果关系;至此得到的RF*矩阵如下所示: 其中,q是经过筛选出具有显著因果效应的关系中包含的属性个数;D.构建基于多层感知机的本科生毕业去向预测模型CRFDL-MLP;CRFDL-MLP模型是一种结合了因果推断与深度学习的新型预测模型;经过对FDAP特征集使用基于随机森林和因果推断的特征选择方法CRFDL进行特征筛选后,得到FDAP重要特征集,为构建CRFDL-MLP模型提供训练集和测试集;至此FDAP重要特征集FDAPFeatureSet*可以用如下矩阵表示: CRFDL-MLP的神经网络结构包括一个输入层、四个隐藏层和一个输出层;输入层输入RF*和Destination矩阵的数据,神经元数量为q+5个,使用ReLU激活函数;前三个隐藏层分别包含256、128和64个神经元,都使用ReLU激活函数,并使用批归一化和Dropout层来防止过拟合;第四个隐藏层包含32个神经元,同样使用ReLU激活函数;输出层的神经元数量为5个,代表五个毕业去向,使用Softmax激活函数;CRFDL-MLP模型使用ReLU和Softmax激活函数,缓解了梯度消失问题;Softmax用于输出层以实现概率分布;在训练过程中,使用交叉熵损失作为优化目标,并使用Adam优化器来优化神经网络的权重和偏置;为了防止过拟合,添加了批归一化和Dropout层;CRFDL-MLP模型训练的具体计算过程如下:假设输入层的数据为X∈Rn×q+5,其中n是样本数,q是RF*矩阵的列数;输出层的目标向量为Y∈Rn×5,其中每一行是一个one-hot编码的向量,表示某个学生的毕业去向;输入层到第一个隐藏层的权重矩阵为W1∈Rq+5×256,偏置向量为b1∈R256;第一个隐藏层的激活函数为ReLU,即f1x=max0,x;则第一个隐藏层的输出为Z1=f1XW1+b1;第一个隐藏层到第二个隐藏层的权重矩阵为W2∈R256×128,偏置向量为b2∈R128;第二个隐藏层的激活函数也为ReLU,即f2x=max0,x;则第二个隐藏层的输出为Z2=f2z1W2+b2;第二个隐藏层到第三个隐藏层的权重矩阵为W3∈R128×64,偏置向量为b3∈R64;第三个隐藏层的激活函数也为ReLU,即f3x=max0,x;则第三个隐藏层的输出为Z3=f3Z2W3+b3;第三个隐藏层到第四个隐藏层的权重矩阵为W4∈R64×32,偏置向量为b4∈R32;第四个隐藏层的激活函数也为ReLU,即f4x=max0,x;则第四个隐藏层的输出为Z4=f4Z3W4+b4;第四个隐藏层到输出层的权重矩阵为W5∈R32×5,偏置向量为b5∈R5;输出层的激活函数为Softmax,即则输出层的输出为为了优化模型的参数,需要定义一个损失函数来衡量模型的预测与真实标签之间的差异;由于输出层使用了Softmax激活函数,可以采用交叉熵损失函数,其定义如下: 其中,Yij表示第i个样本的第j个标签,表示第i个样本的第j个预测值;交叉熵损失函数可以衡量两个概率分布之间的相似度,越小表示越相似;为了最小化损失函数,需要使用梯度下降法来更新模型的参数;梯度下降法的更新公式如下: 其中,θ表示任意的模型参数,η表示学习率,表示损失函数对参数的偏导数,也就是梯度;为了计算梯度,需要使用反向传播算法,即从输出层开始,逐层计算损失函数对每个参数的偏导数,并将其传递给前一层,直到输入层;反向传播算法的具体步骤如下:a计算输出层的误差其中和Y都是n×5的矩阵;b计算输出层的梯度其中δ5i表示δ5的第i行;c计算第四个隐藏层的误差δ4=W5δ5⊙f4′Z4W5+b5,其中⊙表示哈达玛积,即对应元素相乘,f4′表示ReLU函数的导数,即f4′x=1,如果x>0,否则为0;d计算第四个隐藏层的梯度e重复上述过程,计算第三个、第二个和第一个隐藏层的误差和梯度,直到得到所有参数的梯度;f使用梯度下降法更新所有参数,即其中k=1,2,3,4,5;本方法中主要优化的参数包括:1神经元数量Neurons:即隐藏层中的神经元数量,包括每个隐藏层的神经元数量;可以考虑在不同的隐藏层中设置不同数量的神经元;2批处理大小BatchSize:训练时每个小批量的样本数;不同的批处理大小可能会影响收敛速度和模型性能;3迭代次数Epochs:训练的迭代次数,即整个数据集被传递给神经网络的次数;4学习率LearningRate:Adam优化器的学习率,它控制参数更新的步长;学习率过大可能导致震荡,而学习率过小可能导致收敛缓慢;5正则化参数Regularization:L2正则化参数,用于控制模型的复杂度,防止过拟合;E.对本科生毕业去向预测模型CRFDL-MLP的性能和可解释性进行评估;E1.使用准确度、精确度、召回率、F1分数、ROC曲线下的面积AUC,比较和评估CRFDL-MLP模型与四个现有基准预测模型朴素贝叶斯、逻辑回归、支持向量机和随机森林分类器在FDAP特征集上的性能;1Accuracy准确率:是指分类模型正确预测的样本数占总样本数的比例;计算公式为: 其中,TP真正例是指实际为正例且预测为正例的样本数,TN真反例是指实际为反例且预测为反例的样本数,FP假正例是指实际为反例但预测为正例的样本数,FN假反例是指实际为正例但预测为反例的样本数;2Precision精确率:是指分类模型预测为正例的样本中实际为正例的比例;计算公式为: 精确率反映了模型预测正例的准确性,越高表示越少出现假正例;3Recall召回率:是指分类模型预测出的正例占实际正例的比例;计算公式为: 召回率反映了模型预测正例的完整性,越高表示越少漏掉真正例;4F1-ScoreF1值:是指精确率和召回率的调和平均数,用于综合评价模型的性能;计算公式为: F1值越高表示模型的精确率和召回率都越高,平衡了两者之间的权重;5AUCAreaUnderCurve:是指ROC曲线ReceiverOperatingCharacteristicCurve下的面积,用于评价二分类模型的性能;ROC曲线是以假正例率FalsePositiveRate,FPR为横轴,真正例率TruePositiveRate,TPR为纵轴绘制的曲线,反映了模型在不同阈值下的分类效果;计算公式为: AUC越接近1表示模型的性能越好,越接近0.5表示模型的性能越差;E2.使用SHAP值指标来评估CRFDL-MLP模型的可解释性;ShapleyAdditiveexPlanations简称SHAP是一种基于博弈论的方法,用于解释任何机器学习模型的输出;SHAP值是一种衡量每个属性对预测的贡献的指标,它是所有可能的属性子集中属性的平均边际贡献;计算公式为: 其中,N是所有属性的集合,S是任意属性子集,j是某个属性,vS是模型在属性集合S上的预测值,φj是属性j的SHAP值,即对预测值的贡献。
全文数据:
权利要求:
百度查询: 北京工商大学 一种基于因果推断的本科生毕业去向预测方法与可视分析系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。