首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于密度及复杂度的不平衡数据集采样方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:昆明理工大学

摘要:本发明涉及一种基于密度及复杂度的不平衡数据集采样方法,属于数据分类技术领域。本发明首先对少数类样本的分布情况进行量化,并将其定义为样本的复杂度。通过密度峰值聚类算法对少数类样本进行聚类,根据每个子簇的密度和分布情况确定子簇的采样倍率,并以簇内样本的复杂度为指导选出基准样本和辅助样本,最后在基准样本和辅助样本之间随机插入新的样本。本发明通过对样本的分布情况进行量化,并在采样倍率确定阶段同时考虑了样本的数量和复杂度,在样本生成阶段以复杂度为指导生成新样本,有效地提高了对新样本的利用率。

主权项:1.一种基于密度及复杂度的不平衡数据集采样方法,其特征在于:所述数据集为Abalone数据集;Step1:计算少数类样本的密度和复杂度;Step2:对少数类样本进行聚类;Step3:针对聚类后的每个子簇,分别计算出簇密度和簇复杂度,并以此计算出簇的密度权重和簇的复杂度权重;Step4:计算各子簇的采样权重和采样倍率;Step5:分别在各子簇中按照子簇的采样倍率,以样本复杂度为指导选取基准样本和辅助样本,并在选取的基准样本和辅助样本之间随机插入新样本;所述Step5具体为:Step5.1:以少数类样本的复杂度与其所在簇的复杂度之比为选取概率,按概率选取基准样本;Step5.2:对选中的基准样本查询其k近邻;Step5.3:将k近邻中的样本以其复杂度与所有k近邻样本的复杂度之和的比值作为选取概率,按概率选取辅助样本;Step5.4:在基准样本和辅助样本之间随机插入新样本;Step5.5:重复上述步骤,直至所有簇都生成与采样倍率数量相等的新样本。

全文数据:

权利要求:

百度查询: 昆明理工大学 一种基于密度及复杂度的不平衡数据集采样方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。