恭喜中国科学院合肥物质科学研究院汪增福获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜中国科学院合肥物质科学研究院申请的专利一种基于手势动作识别的音乐演奏系统及方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114387616B 。
龙图腾网通过国家知识产权局官网在2025-02-18发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202111495747.5,技术领域涉及:G06V40/10;该发明授权一种基于手势动作识别的音乐演奏系统及方法是由汪增福;商珂瑀设计研发完成,并于2021-12-09向国家知识产权局提交的专利申请。
本一种基于手势动作识别的音乐演奏系统及方法在说明书摘要公布了:本发明公开了一种基于手势动作识别的音乐演奏系统及方法,该系统包括:用于获取演奏视频的摄像头模块、用于识别手势动作的识别模块、用于把识别结果转换为音乐演奏属性的分析计算模块、用于把音乐演奏属性实时转换为音乐指令和声音的播放模块以及用于保存演奏视频和音乐指令的存储模块。本发明无需演奏者穿戴任何设备或进行按键交互即可达到隔空精确流畅演奏音乐的效果,并能提高隔空演奏的准确性和实时性,从而实现易操作、高精度的音乐演奏。
本发明授权一种基于手势动作识别的音乐演奏系统及方法在权利要求书中公布了:1.一种基于手势动作识别的音乐演奏方法,其特征在于:步骤1、采集控制音乐的手势动作视频并设置对应的手势类别标签,从而建立手势动作识别数据集:所述手势类别包括静态手势和动态手势;所述静态手势的类型包括4种:拳头、手掌、数字、竖拇指;其中,任意第i种静态手势包含种子类别,;且静态手势的类别标签标注在每一帧上;所述动态手势的类型包括6种:张开手掌、摇动手掌、比划字母、划动手掌、手指下按、手指抬起;其中,任意第j种动态手势包含种子类别,;且动态手势的类别标签仅标注在开始帧和结束帧上;步骤2、构建手势动作识别网络,包括静态手势识别网络和动态手势识别网络:所述静态手势识别网络,依次包括:Ns个使用relu激活函数的全连接层,一个softmax激活函数;所述动态手势识别网络包含:序列编码模块Encoder、注意力模块Attn和分类模块Class;所述序列编码模块Encoder包含:Ng个堆叠的单向GRU模块;所述注意力模块Attn包括:相关度计算模块、融合模块;所述分类模块Class依次包括:Nm个使用relu激活函数的全连接层,一个softmax激活函数;步骤3、从所述手势动作识别数据集中选取一段视频片段,所述视频片段包含一组连续的L帧图像,计算所述视频片段的损失函数并训练网络:步骤3.1、静态手势识别网络的训练:使用openpose算法提取所述视频片段中任意一帧图像对应的H个手部关键点向量x,并输入至所述静态手势识别网络中,依次经过Ns个全连接层映射为长度为ls的隐向量,再经过softmax函数激活后得到该帧图像在每种手势类别的概率值;根据每种手势类别的概率值及其真实标签,计算交叉熵损失函数,从而训练静态手势识别网络,直至交叉熵损失收敛为止,得到训练好的静态手势识别网络;步骤3.2、动态手势识别网络的训练:使用openpose算法提取所述视频片段中每一帧图像对应的H个手部关键点向量,从而得到所述视频片段中L个时间步的手部关键点序列X=[x1;…;xt;…;xL];其中,xt表示第t个时间步的H个手部关键点向量;将所述手部关键点序列X输入所述动态手势识别网络中,依次经过Ng个单向GRU模块后输出L个时间步的编码信息h=[h1;…;ht;…;hL];其中,表示第t个时间步的编码向量;所述注意力模块根据所述编码信息h计算注意力分数,其中,W是训练过程中可学习的权重矩阵,T表示转置;所述融合模块根据所述注意力分数计算融合信息c=αhT;将所述融合信息c输入所述分类模块Class中,并依次经过Nm个全连接层的映射,得到长度为lm的隐向量,再经过softmax函数激活后得到所述视频片段在每种手势类别的概率值;根据所述视频片段在每个手势类别的概率值及其真实标签,计算交叉熵损失函数,从而训练动态手势识别网络,直至交叉熵损失收敛为止,得到训练好的动态手势识别网络;步骤4、利用训练好的手势识别网络对演奏动作进行实时识别:使用openpose算法对待识别的音乐演奏视频中的第t帧图像Ft提取出K个人体关键点向量Bt、H个左手关键点向量LHt和H个右手关键点向量RHt;同时对待识别的音乐演奏视频中的第t-1帧、第t-2帧、…、第t-L+1帧图像提取出左手关键点向量LHt-1~LHt-L+1和右手关键点向量RHt-1~RHt-L+1;将第t帧图像Ft的H个左手关键点向量LHt输入到所述静态手势识别网络中得到左手静态手势的识别结果LSt;将左手关键点向量LHt-L+1~LHt和右手关键点向量RHt-L+1~RHt分别送入到所述动态手势识别网络中相应得到左手动态手势的识别结果LMt和右手动态手势的识别结果RMt;步骤5、根据所述手势动作识别结果设置音符属性和系统属性,并相应转换为MIDI指令后输出音频:所述音符属性包含:音名、响度、八度组别、升降记号、音色、颤音力度、延时、频率均衡、保持状态;其中,延时、频率均衡的音符属性是根据左手静态手势识别结果进行设置;音色、颤音力度的音符属性是根据左手动态手势识别结果进行设置;音名、响度、八度组别、升降记号、保持状态的音符属性是根据右手动态手势识别结果进行设置;所述系统属性包含:演奏识别状态、录制状态、音轨号、音轨状态;其中,演奏识别状态的“启用”、音轨号、音轨状态的系统属性是根据左手静态手势识别结果进行设置;演奏识别状态的“禁用”、录制状态的系统属性是根据左手动态手势识别结果进行设置;步骤5.1、设置音符属性:若左手动态手势识别结果LMt为动态手势中“比划字母”的一个子类别,则设置音符属性中的“音色”为与子类别对应的实际音色;若左手静态手势识别结果LSt为静态手势中“手掌”,则设置音符属性中的“延时”为根据所述人体关键点向量Bt、所述左手关键点向量LHt计算的实际延时R、设置音符属性中的“频率均衡”为根据所述人体关键点向量Bt、所述左手关键点向量LHt计算的实际均衡值D;若左手动态手势识别结果LMt为动态手势中的“摇动手掌”,则设置音符属性中的“颤音力度”为根据所述人体关键点向量Bt、所述左手关键点向量LHt计算的实际力度值F;若右手动态手势识别结果RMt为动态手势中的“手指下按”或“手指抬起”的一个子类别,则设置音符属性中的“音名”为与子类别对应的实际音名、设置音符属性中的“保持状态”为与子类别对应的实际保持状态;设置音符属性中的“八度组别”为根据所述人体关键点向量Bt、所述右手关键点向量RHt计算的实际组别O、设置音符属性中的“升降号组别”为根据所述人体关键点向量Bt、所述右手关键点向量RHt计算的实际组别SF、设置音符属性中的“响度”为根据所述人体关键点向量Bt、所述右手关键点向量RHt计算的实际响度值A;步骤5.2、设置系统属性:若左手静态手势识别结果LSt为静态手势中的“拳头”,则检查累计帧数是否超过t秒,若超过,则设置系统属性中的“演奏识别状态”为“启用”,表示允许将所述音符属性转换为MIDI指令;若左手动态手势识别结果LMt为动态手势中的“张开手掌”,则检查系统属性中的“演奏识别状态”是否为“启用”,若是,则设置系统属性中的“录制状态”为“开始”,表示开始记录MIDI指令并开始录制演奏视频;若左手静态手势识别结果LSt为静态手势中的“数字”的一个子类别,则检查系统属性中的“演奏识别状态”是否为“启用”,若是,则设置系统属性中的“音轨号”为与子类别对应的实际音轨号;所述实际音轨号对应的音轨记录的所有MIDI指令作为片段循环指令;若左手静态手势识别结果LSt为静态手势中的“竖拇指”的一个子类别,则检查系统属性中的“演奏识别状态”是否为“启用”,若是,则设置系统属性中的“音轨状态”为与子类别对应的“循环”或“清空”的音轨状态;若左手动态手势识别结果LMt为动态手势中的“划动手掌”,则设置系统属性中的“演奏识别状态”为“禁用”、设置系统属性中的“录制状态”为“停止”;步骤5.3、按MIDI2.0协议将所述音符属性、所述系统属性均转换为相应的MIDI指令,用于音频的输出。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国科学院合肥物质科学研究院,其通讯地址为:230031 安徽省合肥市蜀山区蜀山湖路350号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。