买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:国网山东省电力公司莱芜供电公司;国家电网有限公司
摘要:本发明提出了基于多尺度特征的人类动作识别方法及系统,包括:利用卷积网络获取视频序列的空间特征;针对空间特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于初级局部特征的最大响应;对基于初级局部特征的最大响应进行处理获得次级特征;对于次级特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于次级局部特征的最大响应;对于基于初级局部特征的最大响应及基于次级局部特征的最大响应过加权融合的方式获得最终动作分类,所获得的特征对应着视频序列的短期、中期、长期特征。本发明对于时间序列进行短期和长期建模,提升动作识别算法性能。
主权项:1.基于多尺度特征的人类动作识别方法,其特征是,包括:利用卷积网络获取视频序列的空间特征;针对空间特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于初级局部特征的最大响应R1;对基于初级局部特征的最大响应进行处理获得第一次级特征;对于第一次级特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于第一次级局部特征的最大响应R2;对基于第一局部特征的最大响应进行处理获得第二次级特征;对于第二次级特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于第二次级局部特征的最大响应R3;对于基于初级局部特征的最大响应、基于第一次级局部特征的最大响应及基于第二次级局部特征的最大响应通过加权融合的方式获得最终动作分类,具体的实现数学公式形式为:C=argmaxsoftmaxR1+α·softmaxR2+β·softmaxR3其中,C为最终确定的动作类别标签;α、β分别代表两个权重系数,通过消融实验最终确定;以上三个特征对应着视频序列的短期、中期、长期特征;利用卷积网络获取视频序列的空间特征,具体为:对于含有T帧的视频序列,通过2D卷积神经网络对每一帧进行特征提取,获得T×HW维度的特征表示;针对空间特征在时间维度上取局部窗口,在局部窗口内进行计算获取基于初级局部特征的最大响应;具体为:对提取的特征在时间维度上取ΔT后,将其输入第一个SwinTransformer模块的第一个单元进行Selfattention计算,使网络能够关注于时间和空间维度上更值得注意的部分,即形成更具有区别力的R1;由R1到R3的过程具体为:将R1输入到第一个SwinTransformer模块的第二个单元,对基于初级局部特征的最大响应进行移位操作,并进行self-attention计算,以扩大模型感受野,生成第一次级特征,对第一次级特征进行局部的特征融合,融合比例为N,生成大小为TN×HW维度的特征;对于融合后的第一次级特征,在时间维度上取局部窗口,将其输入到第二个SwinTransformer模块的第一个单元,进行self-attention计算得到R2;利用第二个SwinTransformer模块的第二个单元对R2进行移位操作和self-attention计算,生成第二次级特征,对第二次级特征进行局部的特征融合,融合比例为N,生成大小为TN2×HW维度的特征;对于融合后的第二次级特征,在时间维度上取局部窗口,将其输入到第三个SwinTransformer模块的第一个单元,进行self-attention计算得到R3;所述Swintransformer模块具体为:Swintransformer的每个模块主要包含两个单元,首先是一个WindowbasedSelfattention单元,其次是一个ShiftWindowbasedSelfattention单元,在第一个单元内通过Self-attention操作获得了一个局部特征响应R即基于输入特征的最大响应,该特征通过Softmax后作为最后分类依据的一部分;同时R会通过ShiftWindowbasedSelfattention单元,通过shift操作扩大感受野并进行self-attention计算形成次级特征;之后次级特征进行patchmerge,并在时间维度上取局部窗口后作为下一个SwinTransformer模块的输入。
全文数据:
权利要求:
百度查询: 国网山东省电力公司莱芜供电公司 国家电网有限公司 基于多尺度特征的人类动作识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。