首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于可学习PL-GCN和ECLSTM的骨骼动作识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:重庆邮电大学

摘要:本发明请求保护一种基于可学习PL‑GCN和ECLSTM的骨骼动作识别方法,涉及动作识别领域。可以解决骨骼动作识别过程中关键帧和显著运动关节的特征捕获能力有限和相似动作分类能力较弱等问题,该方法包括:针对相似动作识别易混淆的问题提出了一种可学习图卷积网络PL‑GCN用于改善模型的物理结构;针对关键帧捕获能力较弱的问题提出了特征增强的长短时记忆网络ECLSTM用于增强时序特征;利用骨骼序列数据的图拓扑结构完成骨骼图的构建;融合来自图卷积后的空间特征和由ECLSTM网络提取后的时序特征;对融合后的特征经过平均池化、卷积后进行最后的特征分类。本专利提出的方法在动作识别进度,算法复杂度以及特征提取能力均优于当前的一些方法。

主权项:1.一种基于可学习PL-GCN和ECLSTM的骨骼动作识别方法,其特征在于,包括以下步骤:步骤1:基于OpenPose姿态估计算法获取人体骨架序列数据,并进行相应的样本标签标注;步骤2:将骨骼关节点数据建模成图拓扑结构,完成图卷积的构建;步骤3:在原有ST-GCN的图拓扑结构邻接矩阵A分组的基础上,构建一个带有自学习能力的图卷积网络PL-GCN,用来优化人体动作的图结构;步骤4:构建一种特征增强的长短时记忆网络ECLSTM,用来捕获时序特征;步骤5:融合来自PL-GCN图卷积网络提取的空间特征和ECLSTM网络捕获的时序特征;步骤6:使用池化、卷积网络融合后的动作特征进行最后的分类预测;步骤7:构建由9层可自学习图卷积模块组成的空间特征提取网络和3个ECLSTM模块组成的时间特征提取网络的双流框架;输入的骨骼关节点数据先是沿着神经网络模型进行前向传播,将最后的特征经过池化卷积后给出动作类别得分情况,得分最高的类别即为预测类别;后经由损失函数对各网络层参数求导后沿梯度反向传播直到损失函数值达到最小,得到最优的权重参数;所述步骤1基于OpenPose姿态估计算法获取人体骨架序列数据,并进行相应的样本标签标注,具体包括:步骤1.1:采用OpenPose姿态估计算法自下而上的完成人体姿态估计并获取人体骨骼18个关节点数据,每个关节点表示为X,Y,Confidence;X、Y分别表示2D图像中的关节点坐标位置,Confidence表示每个关节点估计的置信度;具体步骤为:搭建好OpenPose算法环境后,在命令提示窗口调用OpenPose.exe处理的样本视频或者图片,得到一组包含人体25关节位置坐标的.json文件,该文件作为后续的骨骼序列数据输入,如果是视频的话会包含30*T关节坐标数据,其中T为视频的时间长短,单位为秒,设置样本视频的帧率为30;步骤1.2:骨骼序列由每帧图片中的人体骨骼关节点的2D或3D坐标表示,每个2D或3D坐标表示为一个向量,一个完整的视频动作序列表示为不同帧之间的向量序列组成;步骤1.3:根据视频中的动作内容,对视频样本完成标注,以方便后续模型的训练和预测;所述步骤2将骨骼关节点数据建模成图拓扑结构,完成图卷积的构建,具体包括:步骤2.1:将骨骼关节点表示为图的顶点,将相邻两帧时空图的相应顶点之间的连边表示为时间边,完成时空图的构建,利用时空图来对人体骨架关节点的时间维度和空间维度进行建模;步骤2.2:构造无向图Gt={Vt,Et}表示一个具有N个关节点和T帧骨骼的序列,其中Vt是N个关节点的集合,Et是骨骼边的集合,节点vti的邻居集被定义为Nvti={vtj|dvti,vtj≤D},其中dvti,vtj是从vti到vtj的最短路径,这里表示1邻域距离;步骤2.3:设计一个映射函数l∶Vt→{1,2,…,K},为每个图顶点vti∈Vt分配标签{1,2,…,K},将节点vti的邻居集Nvti划分为固定数量的K个子集;另外,边集Et由两个子集组成,第一个子集ES={vtivtj|i,j∈H}表示每一帧骨架内的连接,其中H表示自然连接的人体关节集合,第二个子集EF={vtivt+1i}表示连续相邻帧的连边,特定关节i的EF中所有的边都代表其随时间变化的轨迹;步骤2.4:对骨骼关节点数据进行空间图卷积提取特征操作;所述步骤2.4:对骨骼关节点数据进行空间图卷积提取特征操作,具体为: 其中,foutvti表示关节点i处图卷积的输出,fin表示输入特征图,Ztivtj表示t时刻第i关节与采样区间Bvti内其他关节的相对距离,⊙表示矢量元素或矩阵之间的点乘运算;采样函数pvti,vtj=vtj,其中vti∈Bvti,Bvti={vti|dvtj,vti≤D}为采样区间,这里的dvtj,vti为关节vti,vtj之间的最小距离;映射关系lti:Bvti→{0,…,K-1},新的权重函数表示为wvti,vtj=w′ltivtj;所述步骤3在ST-GCN的图拓扑结构邻接矩阵A分组的基础上,构建一个带有自学习能力的图卷积网络PL-GCN,用来优化人体动作的图结构,具体内容为:加入可学习P矩阵后的图卷积输出: 这里的Ak和Pk有相同的尺寸,矩阵Pk的值被初始化为0,矩阵Ak决定了两个顶点之间是否存在联系;Wk和Mk都是可以学习的参数,分别用来实现卷积操作和学习每条边的重要性;加入的可学习P矩阵能够通过一种通道反馈的方式自适应学习更新矩阵参数,从而能够补偿矩阵Ak中对应的缺失关系,定义一种交叉熵损失函数为:L=JW,x,class=W*-x[class]+log∑jexpx[j]3其中J表示定义的损失函数名称,W表示权重矩阵,x表示网络的输出向量,class表示动作类别的真实标签,x[j]表示输出向量的第j维的值;若加入可学习P矩阵后通道反馈输出为:H=foutx,θAk+Pkx,θ*Wx,α4其中Pkx,θ表示第k层自学习矩阵,α表示权重矩阵W中的参数,θ表示自学习矩阵Pkx,θ中的参数;则在反向传播时通过以下操作更新梯度滤波器: 其中,foutx,θ为图卷积输出特征,Wx,α为步骤3.3中的特征加权矩阵;空间图卷积模块通过一种类似信息聚合作用完成对每一帧中关节点特征的提取,各层之间的特征传播具体的操作为: 其中,是无向图Gt的邻接矩阵A和表示关节点自身联系的单位矩阵IN加权后的结果,表示关节点i的度,表示考虑自身连接后的邻接矩阵第i行j列的值;并且Wl是一个可训练的权重矩阵;σ·表示激活函数,表示第l层的隐藏层矩阵,N和D表示隐藏层H的行数与列数,且初始的H0=X,X是一个节点特征向量Xi的矩阵表示;为了加快模型的收敛,在每个图卷积模块之间都设置有BN层,RELU层和dropout层,对经过BatchNorm层的数据进行规范化操作: 其中,uj表示均值,表示方差,表示规范化后的数据,∈表示一个非常小的数为了避免分母为0,m表示1个batch中样本的个数,对经过ReLu层的数据进行激活操作: 其中当输出值x0时,进行输出,当x≤0时,将输出值变为0;最后,对空间卷积模块的输出执行dropout=0.5的操作,避免网络的过拟合;所述步骤4构建一种特征增强的长短时记忆网络ECLSTM,用来捕获时序特征,具体内容为:步骤4.1:利用上一时刻的输出ht-1和当前时刻的输出ht之间的自相关矩阵,完成对当前时刻输出ht的加权,从而捕捉视频动作样本的时序特征信息;步骤4.2:利用sigmoid神经层来控制上一时刻的输出ht-1和当前时刻的输入xt构成的concatht-1,xt通过或部分通过,操作如下:ft=σWf·[ht-1,xt]+bf11下一步是决定让多少新的信息加入到ECLSTM网络中来,利用一个sigmoid层来决定哪些信息需要更新,另外利用一个tanh层生成向量,也就是备选的用来更新的内容利用公式将这两部分联合起来,完成对网络状态的更新:it=σWi·[ht-1,xt]+bi12 bf、bi、bc分别表示sigmoid层的偏置,sigmoid层的偏置,tanh层的偏置;然后利用状态it与加权相乘,把一些不想保留的信息过滤掉,得到我们添加的新内容,具体操作为: 为了得到最后的输出,先通过sigmoid层来得到一个初始的输出:ot=σWo[ht-1,xt]+bo15bo表示sigmoid层的偏置,然后使用tanh层将Ct值缩放到-1到1之间,通过以下操作得到模型的初步输出:h′t=ot*tanhCt16;采用了一种自相关系数矩阵对时序特征进行增强,具体就是利用上一时刻的输出ht-1=[x1,x2…xn]和当前时刻输出h′t=[y1,y2…yn]进行点乘得到自相关矩阵最后利用当前输出与h′t进行加权得到最终输出: 其中ht也即是经过时序特征增强后的当前时刻输出特征;时序特征经过ECLSTM网络特征增强之后,经过一个全连接层对捕捉到的视频关键帧信息进行聚合,为下一步空间关节点特征和时间序列特征融合做准备;所述步骤5融合来自PL-GCN图卷积网络提取的空间特征和ECLSTM网络捕获的时序特征,具体包括:步骤5.1:将来自空间图卷积模块卷积输出后的空间特征和经ECLSTM网络特征增强后的时序特征利用concat方式相融合得到视频动作样本融合后的时空特征;融合后的时空特征是已经完成了对骨骼关节点灵活建模和关键帧捕获后的特征,但此时需要对该特征进一步进行分类,完成动作类别的预测。

全文数据:

权利要求:

百度查询: 重庆邮电大学 一种基于可学习PL-GCN和ECLSTM的骨骼动作识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。