首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于多方法集成学习的自承认技术债务检测分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明涉及一种基于多方法集成学习的自承认技术检测分类方法,该方法包括五个步骤:对特征词进行预处理;选取前k个最有用的特征来训练分类器;使用朴素贝叶斯多项式和线性Logistic回归两种方法训练相应的子分类器;以及通过子分类器投票规则对预测结果集成预测,得到精确度、召回率,综合精确度和召回率最终计算出F1值作为后续的评估标准;最终通过聚类的方法对实验过程中经常出现并且具有高信息增益值的特征进行聚类,进而将检测到的技术债务进行分类。

主权项:1.一种基于多方法集成学习的自承认技术债务检测分类方法,其特征在于步骤如下:步骤1:对特征词进行预处理使用启发式的规则处理原始注释数据:1、删除编译器自动生成的带有固定格式的许可证描述类注释;2、将多行注释合并为一句;3、删除存在于注释语句中的代码;4、将不含有保留字的Javadoc删除,保留含有保留字的注释语句;步骤2:选取前k个最有用的特征来训练分类器在对源项目注释进行文本预处理后,使用向量空间模型VSM来处理已经被划分为特征的单词;在此模型中,用单词向量表示每一句注释,可以将划分出的单词特征视为维度,将每一句注释视为高维空间中的数据点;使用HashMap来作为VSM模型的映射,其中字符型标识为划分出的特征,双精度型数值为词频,即特征在当前注释中出现的次数,并且将次数经过了标准化处理;采用信息增益这种使用广泛的特征选择方法来选择有用的特征:令注释数据集表示为C={C1,L1,C2,L2,...,CN,LN},Ci代表第i条注释,Li代表了该条注释的分类标签,即是t否存在自承认技术债务;还需令Ci={w1,w2,…,wn},其中n代表注释Ci中的特征个数,wi代表了该句注释中的第i个特征;对于一个特征w和一条注释Ci,它们之间存在4种可能的关系:·w,t:注释Ci包含特征w,并且该句注释中存在自承认技术债务i.e.,t·注释Ci包含特征w,但该句注释中不存在自承认技术债务·注释Ci不包含特征w,但该句注释中存在自承认技术债务·注释Ci不含特征w,且该句注释中不存在自承认技术债务基于上述4种可能的关系,特征w和标签t的信息增益计算如下: 其中,pw′,t′表示特征w′出现在具有标签t′的注释中的概率,pw′表示特征w′出现在注释中的概率,pt′表示注释具有标签t′的概率;在使用信息增益的方法计算每一个特征对应的信息增益值后,将特征按照信息增益值的大小,从大到小排序;分数越高,则说明特征在预测分类标签时越重要;选择信息增益值在前k%的特征,并舍弃其他特征;步骤3:使用朴素贝叶斯多项式和线性Logistic回归训练子分类器1:NativeBayesMultinomial将六个分类器,即2号、3号、4号、5号、6号、8号分类器设置为多项式朴素贝叶斯分类器NBM,使用NBM方法进行训练;令注释集为Ci={w1,w2,…,wn},分类标签为Li,可得: 在式3上应用贝叶斯定理,可得: 通过式4来标识注释的分类标签;2:SimpleLogistic将两个分类器,即1号、7号分类器设置为线性逻辑回归分类器SimpleLogistic;令注释数据集表示为C={C1,L1,C2,L2,...,CN,LN},其中Ci代表第i条注释,Li代表了该条注释的分类标签,即是否存在自承认技术债务;除此之外,还需令Ci表示为Ci={w1,w2,…,wn},其中n代表注释Ci中的特征个数,wi代表了该句注释中的第i个特征;根据线性逻辑回归定理,可得:z=θ1w1+θ2w2+…+θnwn+θ0=θTCi5将其带入sigmoid函数,函数表示如下: 根据sigmoid函数的最终结果,将待测注释分为两类,其中分类标签值为1的即为存在自承认技术债务的注释语句;步骤4:子分类器投票规则采用投票规则将多数子分类器预测的分类标签结果作为最终的集成分类器的预测结果;步骤5:聚类进行自承认技术债务分类将上述步骤中通过信息增益值选取的特征,根据特征出现的频率、特征出现的位置以及开发人员的特性对原有数据进行再筛选和删除,并使用聚类的方法,最终将特征单词分类。

全文数据:

权利要求:

百度查询: 西北工业大学 一种基于多方法集成学习的自承认技术债务检测分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。