首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种异质集成的自承认技术债务自动检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:西北工业大学

摘要:本发明公开了一种异质集成的自承认技术债务自动检测方法,分为两个阶段,包括模型的训练阶段和预测阶段。在训练阶段,进行数据集的预处理、特征提取后基于GBDT、SGD和DT三种学习算法对SATD训练样本进行学习以训练组件学习器,三种学习算法一共训练了3个组件学习器。在预测阶段,使用训练好的组件学习器进行预测,根据3个组件学习器以“少数服从多数”进行投票,如果是自承认技术债务会被标记为“positive”,否则标记为“negative”;最终根据每个组件学习器的投票结果进行判断,以投票多者为最终的结果。本发明的异质集成学习方法,比现有技术方法在查准率,查全率以及F1得分等指标都有着明显提高。

主权项:1.一种异质集成的自承认技术债务自动检测方法,其特征在于,包括以下步骤:步骤1:数据集预处理;采用公开的源代码注释数据集,将源代码注释数据集中的每一条注释过滤掉非英文字符,只保留英文字母并且将所有英文字母转换成小写字母并移除停止词;步骤2:特征提取;使用基于词袋模型的BoW特征提取和能够提取语义信息的N-gram模型同时获取经过步骤1处理过的注释的文本特征,构成训练数据集;步骤3:训练组件学习器;将训练数据集分别输入三个并行的组件学习器;第一个组件学习器由梯度提升决策树GBDT构成;所述梯度提升决策树GBDT是基于多棵决策树构成的一种同质集成模型,通过梯度提升和回归决策树的组合方法,GBDT每轮的训练都建立在上一轮的训练的残差基础之上进行,通过迭代构建多个弱学习器发挥集成性能;GBDT在训练时根据注释的类别分别训练一个分类回归树;本发明任务中,存在SATD和Non-SATD两个类,标记SATD注释标签为1,Non-SATD注释标签为0;假设有一条标记为SATD的注释x,GBDT在第一轮训练中训练两棵树,第一颗树的输入为x,1,第二颗树的输入为x,0,两棵树输出的预测值记为f1x,f2x;则经过第一轮训练,注释x属于SATD和Non-SATD的概率以及残差分别如式1到式4所示: y11x=0-P1x3y22x=1-P2x4其中,y11x和y22x分别为表示训练后所计算的注释x属于SATD和Non-SATD的残差;接着进行第二轮的训练,此时SATD输入为x,y11x,Non-SATD输入为x,y22x再次训练产生两棵树;一直迭代M轮使得残差最小化,且每一轮构建两棵树;当训练结束后,对一个待预测注释x*,GBDT会产生两个值f1x,f2x根据他们给出该注释属于类别y的概率如式5所示: 第二个组件学习器由随机梯度下降SGD构成;第三个组件学习基于Bagging算法训练50棵决策树,每棵决策树都随机从原始样本中做有放回的采样,然后基于这些采样后的样本训练分类器,形成新的决策树模型DT;分别对三个组件学习器进行训练,训练完成后,每个组件学习器输出当前输入分类为SATD或Non-SATD的结果,如果是SATD则标记为“positive”,否则标记为“negative”;步骤4:使用Voting算法对三个组件学习器的输出结果进行投票,选择三个组件学习器输出结果占多数的类别作为最后预测结果;步骤5:由步骤1到步骤4的处理过程构成最终用于预测的复合分类器;步骤6:将待分类注释输入复合分类器,输出结果为该待分类注释数据是否为SATD的结果。

全文数据:

权利要求:

百度查询: 西北工业大学 一种异质集成的自承认技术债务自动检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。