买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:重庆理工大学
摘要:本发明公开了一种乐谱识别方法,涉及乐谱识别技术领域。本发明首先将一幅乐谱图像通过目标识别分割为通过树状结构组织的行、小节、音序;而后使用多标签分类方法处理对音序进行识别,最终通过一定的逻辑处理将提取到的树状结构组合成数字乐谱文件并输出,音序的概念:每一声部的每一节拍内音符和修饰符的集合。本方法流程有效的避免了使用同一网络而无法忽视的类间数据量差距,从而均衡各个类的样本,使每个网络都有其特异性;与基于数字图像处理的光学乐谱识别相比,使用本发明方法流程中目标检测网络进行宏观块分割,能够有效地提升对于小节间信息模糊不清,统计学边界不分明的情况,从而增强系统的健壮性。
主权项:1.一种乐谱识别方法,其特征在于:所述方法包括以下步骤:S1.建立元信息、行、小节、音序数据集;S2.建立YOLOV4目标检测网络;所述S2包括以下步骤:S21.设置网络输入规模并进行图像填充;S22.设置骨干网络;S23.设计建立YOLOV4目标检测网络的网络构架;S24.引入CIOU损失函数;S3.基于VGG16多标签分类构建时序音符识别网络;所述S3包括以下步骤:S31.提取音符时序特征,用以将时序转换为音符及其时值;S32.将音符进行多标签分类;S33.基于多标签分类对时序音符识别网络进行结构设计;S34.设置时序音符识别网络的损失函数;S21中,主要包括:网络输入规模图像尺寸为416*416;对图像进行等比例缩放,再对图像进行水平填充;所述等比例缩放的缩放因子rf的计算公式如下:rf=h416其中,h为竖直像素个数;所述水平填充后的像素宽度w'为:w'=rf-1*w2其中,w为图像的水平像素个数;S22中,所述骨干网络为采用CSPDarknet53作为骨干网络;且:Darknet53中,每个残差结构块是由一次下采样和多次残差结构的叠加组成的;CSP作出以下两点改动:将激活函数LeakyReLu函数变为Mish激活函数;对残差结构块的结构基于原始结构进行拆分,其中主干部分继续进行原来的残差块堆叠;另一部分经处理后直接连接入最后;S23中,包括以下步骤:设置YOLOV4目标检测网络的目标检测类别;设置YOLOV4目标检测网络的特征层,所述特征层为三个,分别位于中间层、中下层、底层,三个所述特征层的形状分别是76,76,256,38,38,512,19,19,1024,分别对应了小目标、中等目标、大目标;设置YOLOV4目标检测网络的特征层的输出层,所述输出层的尺寸分别为19,19,72,38,38,72,76,76,72;S24中,所述CIOU损失函数的公式如下:CIoU=IoU-ρ2b,bgtc2-αv;其中,ρ2b,bgt分别代表了预测框和真实框中心点的欧式距离;c代表的是能够同时包含预测框和真实框的最小区域的对角线距离;其中,α=v1-IoU+v:最终计算在Loss中的LossCIoU为:LossCIoU=1-CIoU。
全文数据:
权利要求:
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。