首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于深度学习的音乐流派分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:云境商务智能研究院南京有限公司

摘要:本发明提供了一种基于深度学习的音乐流派分类方法,所述生成方法包括,首先对目标音频进行预处理得到所述目标音频的视觉特征和音频特征;通过10折交叉验证,将所述目标音频的特征数据依次放入每个模型中进行训练,选取泛化能力最优的模型;对所述最优模型用全部的数据重新进行训练,保留最优参数;将录制音频或原始音频文件进行预处理后投入使用所述最优参数的神经网络进行分类预测,分类器给出分类结果。

主权项:1.一种基于深度学习的音乐流派分类方法,其特征在于,包括以下步骤:步骤S1、首先对目标音频进行预处理,得到所述目标音频的视觉特征和音频特征;步骤S2、通过10折交叉验证,将所述目标音频的特征数据一次放入每个候选模型中进行训练,选取泛化能力最优的模型;模型包括一个音频特征处理模块AFE,一个视觉特征处理模型VFE和一个分类器,VFE模块采用并行卷积层进行了微调,包括3层二维卷积、1层并行卷积和2层递归神经网络RNNs,在每个卷积运算过程中,除第一卷积层具有64个大小相等的不同核外,其他卷积层具有128个核;每个卷积核的大小为3*3,跳长为1,每个卷积核与所有底层特征形成映射关系;卷积核覆盖在输入的相应位置,将卷积核中的每个值与输入中相应像素的值相乘;上述乘积之和是输出中目标像素的值,对输入的所有位置重复此操作;在每次卷积之后,执行批标准化BN和校正线性单元ReLU操作;还添加了一个最大池操作以减少参数的数量;池操作的过滤器大小采用2*2带步幅2,3*3带步幅3分别用于第一和第二池操作,4*4带步幅4用于其他池操作;卷积层和归并层的作用是将原始数据映射到隐层特征空间;VFE模块使用门控制单元GRU的2层RNN来总结二维3层卷积和1层并行卷积的时间模式;并不是所有并行卷积层的输出都放入RNN中,在RNNs中只加入了最大池并行卷积的分支输出;最后,将有一个长度为160的向量输出,它由GRU的输出和使用平均池运算的并行卷积的分支输出组成;AFE模块由五个致密层组成,每个致密层的大小分别为1024、512、256、128和64;在每层BN层后增加0.4的Dropout层;最后,AFE模块将输出一个长度为64的向量;VFE模块、AFE模块和分类器构成了整个网络模型,最后,将两个模块的输出连接起来,形成一个长度为224的特征向量;只使用一个具有SoftMax函数的FC层进行分类;步骤S3、对所述最优模型用全部的数据重新进行训练,保留最优参数;步骤S4、将录制音频或原始音频文件进行预处理后投入使用所述最优参数的神经网络进行分类预测,分类器给出最终分类结果。

全文数据:

权利要求:

百度查询: 云境商务智能研究院南京有限公司 一种基于深度学习的音乐流派分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。