Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种多标签不平衡数据分类的机器学习方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:江苏科技大学

摘要:本发明提供一种多标签不平衡数据分类的机器学习方法及系统,所述基于二重高阶策略及进化计算采样方法的多标签不平衡数据分类的机器学习的构建方法及系统混合使用特征型、标签型高阶策略扩展多标签不平衡数据;融合进化计算方法,给出了多标签数据集的种群均衡适应度的计算方法,并据此在高维复叠空间中依据标签平均不平衡率IRLblP的变化情况实现动态降采样操作;将多标签问题转化为传统分类问题,使传统的分类器以二重高阶策略的方式直接参与到多标签分类中来。本发明可使传统的多类分类器以考虑标签关系的方式直接参与到多标签不平衡分类中来,并有效提升算法的多标签评估指标F‑measure的值。

主权项:1.一种多标签不平衡数据分类的机器学习方法,其特征是,包括以下步骤,S1:根据多标签数据集的特点进行多次迭代,最终扩散至标签数据集的特征中;具体为:S1-1:利用LDA主题模型扩展多标签数据的特征集,预先设置迭代次数i,设置主题个数K=2,设置主题个数为2的原因是保证得出的主题分布为二进制分布;S1-2:对于多标签数据集,将每个实例视为一个文档,将每个标签视为文档中的一个单词,确定狄利克雷分布参数,然后将其引入LDA主题模型中;S1-3:依据LDA主题模型计算法则,计算出实例-主题概率分布矩阵,该矩阵表示每个实例属于每个主题的概率值,依据概率值生成二进制离散矩阵,以确定每个实例的主题所属;S1-4:训练数据集与测试数据集有相同的主题概率分布,因此首先提取训练集特征,以S1-3中的离散矩阵为结果,合并成为一个新的多标签数据集,然后利用传统的多类分类器学习并预测对应测试集的离散矩阵;S1-5:用S1-3中的离散矩阵扩充原始的训练集特征空间,用S1-4中传统的多类分类器学习并预测对应测试集的离散矩阵扩充测试集特征空间,检查是否完成迭代,若未完成,则转S1-4,否则结束;S2:根据多标签数据集的种群均衡适应度进行动态降采样操作;具体为:S2-1:计算多标签数据集的种群均衡适应度的值,将数据集中每个样本作为一个个体处理,并将这些个体共同构成一个种群;S2-2:将每个个体同时映射到高维标签空间及高维特征标签空间中,将种群中所包含的NP个个体同时置入连通网N中,此时形成一个有NP个顶点的连通网N={V,E},此时,该连通网形成了仅有NP个顶点、且边集此时为空集的非连通图T={V,E},其中V表示点集,E表示边集;S2-3:根据克鲁斯卡尔原则,每次选取未被记入连通禁忌表的、复叠空间距离最近的两个个体,此时,若将这两个个体连通,系统的连通分量不减少,则撤销这次连通操作,并将该操作记入连通禁忌表,不再允许这两个个体被连接,若将这两个个体连通,系统的连通分量减少的,转S2-4;若已经不存在可以执行连通操作的符合要求的个体时,转S2-5;其中,复叠空间距离按下式计算: 其中,DC为复叠空间距离,DLp,q、DFp,q分别为种群中第p和第q个个体映射到高维标签空间及高维特征标签空间中后的欧氏距离;S2-4:将S2-3中所传入的两个个体标记为连通,此时,非连通图T={V,E}同步更新,系统的连通分量也减少,若执行连通操作的两个个体中存在因操作使得其连接的顶点数超过1的个体,将该个体记入连通禁忌表中,不再允许该个体与任意其他个体连接,完成后,转S2-3;S2-5:计算此时的连通分量,将每个相互连通的个体作为一个个体组合处理,选取一个包含个体数量最多的个体组合,再从该个体组合中选取一条长度最短的边,对于该边的两个顶点上的个体,将其与本个体组合中其他所有个体依次相连并计算所产生的新边的总长度;对于总长度较小的个体,将其从种群中删除,以实现单次降采样操作,当总长度值相同时,从种群中同时删除这两个个体;S2-6:利用标准IRLbl的计算方法,计算种群P的每个标签的标签平均不平衡率IRLblP的值,当所有标签的标签平均不平衡率IRLblP的均值IRLblL仍高于所预设的阈值ERT时,返回S2-1,否则结束;S3:根据多标签数据集的标签分布情况按特征聚类并形成标签类簇,同时在聚类之前记录标签序号;S4:控制各标签类簇的最大规模,所有类簇都满足不超过3个标签的条件;S5:将所有类簇中的多标签分布转化为多类别分布并转化为多个多分类数据集;S6:调用传统的多类不平衡分类器,对转化得来的多类数据集分别进行学习和预测,得到预测的多类分类结果;传统的多类分类器满足要求为:所选择的多类分类器在处理不平衡问题时,能有效地对至少5类分类问题进行有效区分;所选择的多类分类器,处理任务时,所需时间尽量少,算法时间复杂度低于On3;S7:将预测的多类分类结果重新转换为多标签分布结果,经转换还原原标签集顺序;S8:利用Macro-F1和Micro-F1指标评价预测结果,在计算Macro-F1和Micro-F1值之前,按照如下公式计算准确率Precision和召回率Recall: 其中,TP、TruePositive真阳性:预测为正,实际也为正;FP、FalsePositive假阳性:预测为正,实际为负;FN、FalseNegative假阴性:预测为负、实际为正;TN、TrueNegative真阴性:预测为负、实际也为负。

全文数据:

权利要求:

百度查询: 江苏科技大学 一种多标签不平衡数据分类的机器学习方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。