首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于最优多类平衡采样的生物信息学数据分类方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:湖南工商大学

摘要:本发明实施例中提供了一种基于最优多类平衡采样的生物信息学数据分类方法及系统,属于数据处理技术领域,具体包括:输入包含多个类别的不平衡生物信息学数据集;根据最优平衡采样尺度nbest将不平衡生物信息学数据集中的类划分为不同类别;根据不同类别的数据进行对应的数据平衡操作,得到每个类别对应的多个子类;依次从每个类别中取一个子类组合形成一个平衡子集,得到多个所述平衡子集并进行集成学习,得到生物信息数据所属类别。通过本发明的方案,提出了一种最优平衡采样策略,要求采样后各子集中每类的样本数保持相同,同时还要求总的采样样本数最小,在面向多类别不平衡数据时,能够有效地消除多类别不平衡问题,提高了分类性能和分类适应性。

主权项:1.一种基于最优多类平衡采样的生物信息学数据分类方法,其特征在于,包括:步骤1,输入包含多个类别的不平衡生物信息学数据集;步骤2,根据最优平衡采样尺度nbest将不平衡生物信息学数据集中的类划分为不同类别;所述步骤2之前,所述方法还包括:根据所述不平衡生物信息学数据集中类的数量建立目标函数,其中,所述目标函数为fnbest=|nbest-n1|+…+|nbest-ni|+…+|nbest-nC|其中,C为所述不平衡生物信息学数据集中类的数量,ni,i=1,2,…,C,表示每第i类中初始的样本数量,nC为所述不平衡生物信息学数据集中样本数量最多的类中的数据量,nbest为最优平衡采样尺度;求解所述目标函数的最小值作为所述最优平衡采样尺度;所述步骤2具体包括:将所述不平衡生物信息学数据集中的样本数量大于最优平衡采样尺度nbest的类划分为大类;将所述不平衡生物信息学数据集中的样本数量等于最优平衡采样尺度nbest的类划分为基准类;将所述不平衡生物信息学数据集中的样本数量小于最优平衡采样尺度nbest的类划分为小类;步骤3,根据不同类别的数据进行对应的数据平衡操作,得到每个类别对应的多个子类;所述步骤3具体包括:当所述类别为大类时,通过滑动窗口的将其划分为V个子类且每个子类的样本数均为nbest,其中,V为大于或等于2的正整数;当所述类别为基准类时,将其复制V-1份,得到V个子类;当所述类别为小类时,利用上采样技术将该类的样本数量达到nbest,然后再复制V-1份,得到V个子类;步骤4,依次从每个类别中取一个子类组合形成一个平衡子集,得到多个所述平衡子集并进行集成学习,得到生物信息数据所属类别。

全文数据:

权利要求:

百度查询: 湖南工商大学 基于最优多类平衡采样的生物信息学数据分类方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。