首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于TP-STG框架的人体动作识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国石油大学(华东)

摘要:本发明公开了一种基于TP‑STG框架的人体动作识别方法,该方法包含:以视频信息作为输入,将先验知识加入SVM分类器,提出后验判别准则以去除非人员目标;通过目标定位与检测算法分割出人员目标,并以目标框和坐标信息的方式输出,为人体关键点检测提供输入数据;利用改进的姿态识别算法进行身体部位定位和关联程度分析以提取到全部人体关键点信息,形成关键点序列;通过动作识别算法在关键点序列上构建时空图,对其应用于多层时空图卷积操作,并由Softmax分类器进行动作分类,实现复杂场景下的人体动作识别。本发明的方法首次结合海洋平台的实际场景,提出的TP‑STG框架首次尝试使用目标检测、姿态识别和时空图卷积的方法来识别海上钻井平台上的工人活动。

主权项:1.一种基于TP-STG框架的人体动作识别方法,其特征及具体步骤如下:S100,以视频信息作为输入,将先验知识加入SVM分类器,提出后验判别准则以去除非人员目标;S200,通过目标定位与检测算法分割出人员目标,并以目标框和坐标信息的方式输出,为人体关键点检测提供输入数据;S300,利用改进的姿态识别算法进行身体部位定位和关联程度分析以提取到全部人体关键点信息,形成关键点序列;S400,通过动作识别算法在关键点序列上构建时空图,对其应用于多层时空图卷积操作,并由Softmax分类器进行动作分类,实现复杂场景下的人体动作识别;在所述的步骤S100中,针对具体场景下的环境特点,匹配适合该场景下的先验知识;如所述的步骤S300中,改进的姿态识别算法包括:S310,以上一阶段目标检测得到的w*h大小的彩色图像作为输入;S311,采取多尺度的方式,按照1.0比1.2倍的比例扩大感知野;S312,经过VGG的前8层网络的特征提取得到一个特征映射F;S313,网络分成两个循环分支,一个分支用于预测身体部位位置的二维置信度图S,进行身体部位定位得到人体所有可见的关键点,另一个分支用于预测像素点在骨架中的二维矢量场L,进行关联程度分析得到人体不可见的关键点;S314,循环分支以特征图F作为输入,得到一组S1,L1;S315,之后的分支分别以上一个分支的输出St-1,Lt-1和特征图F作为输入,不断进行迭代;S316,经过p个阶段最终输出Sp和Lp;S317,计算S,L的预测值与groundtruthS*,L*之间的L2范数,S和L的groundtruth根据标注的2D点计算,如果某个关键点标注缺失,则不计算该点的值,最终输出所有关键点的信息;在所述的步骤S313中,两个循环分支分别回归S和L,每一个阶段计算一次损失,之后把S和L以及原始输入继续输入下一个阶段进行训练;随着迭代次数的增加,在已知的关键点位置的基础上,利用矢量之间的位移长度建立人体各部位之间的相对位置关系,从而实现人体不可见关键点的预测与估计。

全文数据:一种基于TP-STG框架的人体动作识别方法技术领域本发明属于计算机视觉与图像处理领域,涉及一种基于TP-STG框架的人体动作识别方法。背景技术随着监控摄像头的普及和广泛应用,海量的视频数据给人工识别带来了巨大的压力,采用人工模式对视频数据进行分析研判,监控人员的人力、经验和分析能力瓶颈制约了智能行为判别应用的整体效能。近年来,随着研究的不断推进,人体动作识别的研究取得了一定的进展。传统的方法以模板匹配、三维分析和时间序列这三种方法最为常见,但是计算量比较大,易受噪声的干扰,缺乏鲁棒性,且对动作行为模式整体性的考虑和全局性的分析不足,提取到的特征少而简单,导致识别的准确率较低。以往的人体动作识别算法在单一特定场景下效果较突出,但大多数人体动作识别的算法只适用于简单场景,受环境因素的影响非常大。当传统算法应用于复杂场景中时由于受到杂乱背景等因素的影响,很难正确检测到人体动作特征,识别效果急剧下降,复杂场景下的人体动作识别成为了一个亟待解决的难题。发明内容本发明的目的是提供一种基于TP-STG框架的人体动作识别方法,该方法解决了现有技术对复杂场景中人体动作识别效果差且误差大的问题,能够用于复杂场景下的人体动作识别,对动态场景中人员进行目标定位和姿态识别与估计,实现图像中人员目标动作的精准识别。为了达到上述目的,本发明提供了一种基于TP-STG框架的人体动作识别方法,该方法包含:S100以视频信息作为输入,将先验知识加入SVM分类器,提出后验判别准则以去除非人员目标;S200通过目标定位与检测算法分割出人员目标,并以目标框和坐标信息的方式输出,为人体关键点检测提供输入数据;S300利用改进的姿态识别算法进行身体部位定位和关联程度分析以提取到全部人体关键点信息,形成关键点序列;S400通过动作识别算法在关键点序列上构建时空图,对其应用于多层时空图卷积操作,并由Softmax分类器进行动作分类,实现复杂场景下的人体动作识别。其中,在所述的步骤S100中,针对具体场景下的环境特点,匹配适合该场景下的先验知识,如海上石油平台这个复杂场景,由于人员目标的安全服颜色与某些柱形管道颜色和形态十分相似,颜色、纹理和形状特征难以区分,使用简单场景下常规模型经常混淆两者,导致较高的误报率;针对该类问题,本发明提出将先验知识加入SVM分类器,对检测目标和混淆目标进行SVM预训练,将识别出的非人员目标视为负样本去除,减少了负样本的计算量,提高了下一阶段目标检测的准确率。优选地,所述的目标定位与检测算法包括:S210通过数据预处理将视频数据转换为图像数据,并进行样本标签化操作,作为算法的输入数据;S211把输入图像分成N*N个栅格,通过特征提取对每个栅格都预测r个边界框,如果一个物体的中心落在一个边界框内,那么这个栅格就负责检测这个物体;S212在图像上运行单个卷积网络得到边界框的置信度得分计算,这些置信度分数反映了边界框中包含目标的可信程度以及目标在预测框中的准确性;S213通过增加边界框坐标预测的损失计算,并减少对不包含目标边界框的置信度的预测损失,防止模型早期发散和不稳定;S214将边界框宽度和高度按照一定比例归一化,使得它们落在0和1之间,得到最终预测的目标类别概率和边界框坐标信息。优选地,在所述的步骤S212中,在置信度得分的计算过程中,需要定义预测边界框和实际边界框的相交程度,以此作为置信度得分的计算依据,如果预测边界框单元中不存在目标,则置信分数应为零;否则置信度得分等于预测框和真实目标边界框之间的交集PIA与真实目标框groundtruth的乘积,由此置信度的定义表示为:式1中,Cr表示置信度,GrObject表示真实目标框,表示预测框和真实目标边界框之间的交集。优选地,在所述的步骤S213中损失计算通过总体目标损失函数完成,其中,坐标预测的损失函数Lx,y,w,h为:式2中,x,y表示相对于栅格单元的边界框的中心点的坐标,w和h表示整个输入图像的宽度和高度,而分别表示i个xi,yi,wi,hi的均值,表示判断第i个网络中的第j个栅格是否负责这个目标object,λ表示权重。含真实目标的边界框置信度预测的损失函数Lobj表示为:式3中,Ci表示第i个边界框的置信度值,而对于不含真实目标的边界框置信度预测的损失函数Lnoobj表示为:对于目标类别的预测的损失函数Lclass表示为:式5中,pic表示为第i个目标类别的概率,表示为i个目标类别的概率均值,求得各个损失函数后,各个损失函数加权融合得到最终目标损失函数Lf:Lf=Lx,y,w,h+Lobj+Lnoobj+Lclass6式6中,最终目标损失函数Lf为坐标预测的损失函数、含真实目标的边界框置信度预测的损失函数、不含真实目标的边界框置信度预测的损失函数和目标类别的预测的损失函数加权和。优选地,所述改进的姿态识别算法包括:S310以上一阶段目标检测得到的w*h大小的彩色图像作为输入;S311采取多尺度的方式,按照1.0比1.2倍的比例扩大感知野;S312经过VGG的前8层网络的特征提取得到一个特征映射F;S313网络分成两个循环分支,一个分支用于预测身体部位位置的二维置信度图S,进行身体部位定位得到人体所有可见的关键点,另一个分支用于预测像素点在骨架中的二维矢量场L,进行关联程度分析得到人体不可见的关键点;S314循环分支以特征图F作为输入,得到一组S1,L1;S315之后的分支分别以上一个分支的输出St-1,Lt-1和特征图F作为输入,不断进行迭代;S316经过p个阶段最终输出Sp和Lp;S317计算S,L的预测值与groundtruthS*,L*之间的L2范数,S和L的groundtruth根据标注的2D点计算,如果某个关键点标注缺失,则不计算该点的值,最终输出所有关键点的信息。优选地,在所述的步骤S313中,两个循环分支分别回归S和L,每一个阶段计算一次损失,之后把S和L以及原始输入继续输入下一个阶段进行训练;随着迭代次数的增加,在已知的关键点位置的基础上,利用矢量之间的位移长度建立人体各部位之间的相对位置关系,从而实现人体不可见关键点的预测与估计。优选地,在所述的步骤S317中,通过图像中标注的2D点Xj,k计算S的groundtruthS*,其中,Xj,k表示图像中第k个人的第j种关键点的计算方法,表示符合正态分布;当像素点P接近注释点Xj,k时,达到正态曲线的峰值,则每张图像中第j种关键点的S为图像中k个人的正态分布峰值式7中,σ是正态分布的参数,对于S,每一类关键点有一个通道channel,生成groundtruth的时候是按照多个分布取最大值的方法来保留各个点的响应峰值,当峰值取得最大值时得到第k个人的第j种关键点的值通过第k个人的两个关键点Xj1,k,Xj2,k之间任意像素P的单位向量来计算L的groundtruthLb*,其中,L表示人体部位的亲和力,k表示第k个人,j1和j2表示两个能够相连的关节,例如头部和躯干直接通过颈部相连,b表示第b种人体的部位。对于L的groundtruthLb*计算相对复杂,当图像中第k个人的关键点Xj1,k指向Xj2,k时,其单位向量需要分情况讨论计算,如式9所示:其中,v大小和方向是固定的,xj,k表示第k个人的第j个关键点的位置,像素点P是否能够落在人体肢干上需要满足两个条件,即为阈值范围:式10中,lb,k和σl分别表示人体肢干的长度和宽度,通过对所有人员目标相同类别的肢干进行均值化,使得L的输出的通道数目与肢干种数相等,求得均值式11中,每张图像中的第b部位的二维矢量场均值表示k个人在像素点P的位置处的部位亲和力向量的平均值,当关键点dj1和dj2以及它们之前的部位亲和力向量已知之后,通过计算两个关键点dj1和dj2之间连线的向量和连线上各像素的部位亲和力向量之间的点积的积分作为两个关键点之间的部位相关性R:式12中,w表示两个关键点之间的权重,取值在[0,1]之间,Pw表示权重函数,LbPw表示连线上各像素的部位亲和力的向量。优选地,所述的动作识别算法包括:S410以上一阶段姿态识别得到的人体关键点的连续序列作为输入;S411使用图结构规则,充分利用空间和时序结构信息来构建时空图;S412在时空图上使用多层图卷积操作以提取高层特征,对应的空间划分规则;S413判断时空图节点的邻域子集个数,设计对应的空间划分规则并确定使用的规则;S414利用标准的Softmax动作分类器进行动作分类;S415输出动作类别标签和相应的动作评分。优选地,在所述的步骤S411中,构建时空图时,在每一视频帧内部,按照人体的自然骨架连接关系构造空间图,同时将相邻两帧的相同关键点连接构成时序边,所有输入帧中的关键点构成节点集V,所有的有向边构成边集E,按照上述规则得到时空图G=V,E,自然地保留了骨架关键点的空间信息,并使得关键点的运动轨迹以时序边的形式得到表现。在图中具体而言,节点集合V={vti|t=1,2...T,i=1,2...N}包含关键点序列上的所有的关节点,其中,T表示视频帧数,N表示人体所有关键点的个数,设置为18。当构建时空图时,关键点上的第t帧、第i个关节点的特征向量Fvti是由关键点的坐标信息和置信度组成的;边的集合E有两个子集组成,分别是每一视频帧帧内关节点的链接Es={vtivtj|i,j∈P}以及不同视频帧帧间的链接Et={vtivt+1i},其中,P表示人体所有关键点的集合,i,j分别是关键点集合中的两个任意关节。优选地,在所述的步骤S413中,把中心像素相邻的像素集合,即邻域集按照空间顺序划分为一系列集合T,每个集合正好包含图像一个像素,这些集合构成了邻域集的一个划分,若将节点的1邻域划分为一个子集,标记为唯一划分;若将节点的1邻域分为两个子集,即节点本身的子集与邻节点子集,标记为基于距离的划分;若将节点的1邻域划分为三个子集,包括节点本身、空间位置上比本节点更靠近整个骨架重心的邻节点集合以及更远离重心的邻节点集合,根据运动分析对向心运动与离心运动进行定义,标记为空间构型划分。本发明的基于TP-STG框架的人体动作识别方法,解决了现有技术对复杂场景下人体动作识别误差大且实时性差的问题,具有以下优点:1本发明的方法首次结合海洋平台的实际场景,提出的TP-STG框架首次尝试使用目标检测、姿态识别和时空图卷积的方法来识别海上钻井平台上的工人活动;2本发明的方法应用在海洋平台这个复杂场景中,为了降低柱形管道对目标检测的影响,提出一种基于SVM的数据预处理方案,提高目标识别的准确率;3本发明的方法在有遮蔽物的情况下提出改进的姿态识别算法,利用目标检测的结果实现人体不可见关键点的检测和估计,免去人工标注目标的繁杂工作;4本发明的方法通过在关键点序列上构建时空图,充分地利用了空间结构信息和时序结构信息,对其应用于多层时空图卷积操作,并由Softmax分类器进行动作分类和预测,实现复杂场景下的人体动作识别。附图说明图1为本发明中基于TP-STG框架的人体动作识别方法的结构流程图。图2为本发明中目标定位与检测算法的流程图。图3为本发明中改进的姿态识别算法的流程图。图4为本发明中动作识别算法的流程图。具体实施方式以下结合附图和实施例对本发明的技术方案做进一步的说明。一种基于TP-STG框架的人体动作识别方法,如图1所示,为本发明的基于TP-STG框架的人体动作识别方法的结构流程图,该方法包含:S100以视频信息作为输入,进行特征提取,再将先验知识加入SVM分类器,提出后验判别准则以去除非人员目标;S200通过目标定位与检测算法分割出人员目标,并以目标框和坐标信息的方式输出,利用特征选择为人体关键点检测提供信息;S300利用改进的姿态识别算法进行身体部位定位和关联程度分析以检测到全部人体关键点信息,形成关键点序列;S400通过动作识别算法在关键点序列上构建时空图,对其应用于多层时空图卷积操作,并由Softmax分类器进行动作分类,实现复杂场景下的人体动作分类与预估。其中,在所述的步骤S100中,以视频信息作为输入,通过数据预处理和样本标签化将视频数据转化为可输入深度网络的图像数据,利用已标注的图像数据集训练人员目标检测模型。针对具体场景下的环境特点,匹配适合该场景下的先验知识,如海上石油平台这个复杂场景,由于人员目标的安全服颜色与某些柱形管道颜色和形态十分相似,颜色、纹理和形状特征难以区分,使用简单场景下常规模型经常混淆两者,导致较高的误报率;针对该类问题,本发明提出将先验知识加入SVM分类器,对检测目标和混淆目标进行SVM预训练,将识别出的非人员目标视为负样本去除,减少了负样本的计算量,提高了下一阶段目标检测的准确率。如图2所示,为本发明的目标定位与检测算法的流程图,人员目标定位与检测算法流程包括:S210通过数据预处理将视频数据转换为图像数据,并进行样本标签化操作,作为算法的输入数据;S211把输入图像分成N*N个栅格,通过特征提取对每个栅格都预测r个边界框,利用目标判断机制,如果一个物体的中心落在一个边界框内,那么这个栅格就负责检测这个物体,每个栅格单元预测这些框的r个边界框和置信度得分,若目标不存在,则进行下一个栅格的检测;S212在图像上运行单个卷积网络得到边界框的置信度得分计算,这些置信度分数反映了边界框中包含目标的可信程度以及目标在预测框中的准确性,通过置信度判别选择损失函数的计算方式;S213通过增加边界框坐标预测的损失计算,并减少对不包含目标边界框的置信度的预测损失,防止模型早期发散和不稳定;S214将边界框宽度和高度按照一定比例归一化,使得它们落在0和1之间,得到最终预测的目标类别概率和边界框坐标信息。目标定位与检测算法将目标检测作为单个回归问题来解决,直接从图像像素输入到边界框坐标和类别概率输出,在图像上采用一次性预测所有栅格所含目标的边界框、定位置信度以及所有类别概率向量来将问题一次性解决,只运行单个卷积网络则可以预测出目标类别及其位置。对于网络的设计,初始卷积层用来从图像中提取特征,而全连接层用来预测输出目标概率和位置坐标。整个检测网络有24个3×3卷积层和2个全连接层,交替的1×1还原层用来减少来自先前层的特征空间。为了使网络能够接受多种尺寸的输入图像,本发明减少了网络结构中的全连接层,因为全连接层必须要求输入和输出固定长度特征向量,如果将整个网络变成一个全卷积网络,那么就能够对多种尺寸输入进行检测。同时,全卷积网络相对于全连接层能够更好地保留目标的空间位置信息。此外,为了提升小物体检测效果,本发明去除了网络结构中的池化层数目,使得最终特征图尺寸更大,特征图尺寸取决于原图尺寸,但特征图的尺寸必须为奇数,以此保证中间有一个位置能保存原图中心处的目标。对于置信度判别,算法将初始阈值设置为0.6,大于该阈值的对象类别视为目标类别,否则视为目标不存在。根据置信度判断目标是否存在决定损失函数的计算方式,含真实目标的边界框置信度预测的损失函数Lobj表示为:式3中,Ci表示第i个边界框的置信度值,而对于不含真实目标的边界框置信度预测的损失函数Lnoobj表示为:式4中,表示判断第i个网络中的第j个栅格是否不负责这个目标object,λ表示权重。如图3所示,为本发明中改进的姿态识别算法的流程图,该算法流程包括:S310以上一阶段目标检测得到的w*h大小的彩色图像作为输入;S311采取多尺度的方式,按照1.0比1.2倍的比例扩大感知野;S312经过VGG的前8层网络的特征提取得到一个特征映射F;S313通过关键点分析结果,算法分成两个循环分支,一个分支用于预测身体部位位置的二维置信度图S,进行身体部位定位和关键点检测得到人体所有可见的关键点,另一个分支用于预测像素点在骨架中的二维矢量场L,进行关联程度分析和部位亲和力计算得到人体不可见关键点的信息;S314当前阶段t≤p时,循环分支以特征图F作为输入,得到一组S1,L1;S315之后的分支分别以上一个分支的输出St-1,Lt-1和特征图F作为输入,不断进行迭代;S316经过p个阶段最终输出Sp和Lp;S317计算S,L的预测值与groundtruthS*,L*之间的L2范数,S和L的groundtruth根据标注的2D点计算,如果某个关键点标注缺失,则不计算该点的值,最终输出所有关键点的信息。在步骤S313中,通过前8层网络中的卷积网络分析图像,两个循环分支分别回归S和L,以迭代方式在分支一中预测身体部位的置信度图和在分支二中预测人体部位亲和力,在每个阶段结束时为每个分支应用不同的损失函数,之后把S和L以及原始输入继续输入下一个阶段进行训练。在估计的预测值和真实的置信图上,关键点之间的连接使用L2损失,在空间上对损失函数进行加权,以解决一些实际问题。随着迭代次数的增加,在已知的关键点位置的基础上,利用矢量之间的位移长度建立人体各部位之间的相对位置关系,从而实现人体不可见关键点的预测与估计。对于部位亲和力的表示,它是一个2D向量集合,每一个2D向量集合都会编码一个肢体的位置和方向,同时保留表示肢体的区域之间的位置和方向信息。对于属于特定肢体部位的每一个像素,一个2D向量编码了从肢体的一部分指向另一部分的方向,每一种类型的肢体都有其对应的聚合相连的两部分的亲和力。这些部位亲和力和身体部位的置信图一起经过CNN进行联合学习和预测,能够有效地针对多人进行姿态估计,同时在保证精度的情况下,可以做到实时的效果。如图4所示,为本发明中动作识别算法的流程图,该算法流程包括:S410以上一阶段姿态识别得到的人体关键点的连续序列作为输入;S411使用图结构规则,充分利用空间和时序结构信息来构建时空图;S412在时空图上使用多层图卷积操作以提取高层特征,对应的空间划分规则;S413判断时空图节点的邻域子集个数,设计对应的空间划分规则并确定使用的规则;S414利用标准的Softmax动作分类器进行动作分类;S415输出动作类别标签和相应的动作评分。在步骤S413中,图像上的卷积操作把中心像素相邻的像素集合,即邻域集按照空间顺序,如从左至右,从上至下划分为一系列集合T,每个集合正好包含一个像素,这些集合就构成了邻域集的一个划分。卷积核的参数只与这个划分中的子集个数以及特征向量长度有关,只要定义了某种划分规则就可以参照图像卷积来定义卷积核的参数。针对不同的图卷积网络,定义有针对性的卷积操作,就简化为设计对应的划分规则。对一个存在T个子集的划分规则,卷积核的参数包含T个部分,每个部分参数数量与特征向量一样。在一个窗口大小为3×3的卷积操作中,一个像素的邻域按照空间顺序被划分为9个子集,包括左上,上,右上,左,中,右,左下,下和右下,每个子集包含一个像素。卷积核的参数包含9个部分,每个部位与特征图的特征向量长度一致,图像卷积就可以视为图卷积在规则网格图上的一种应用。对于空间上的骨架划分规则,若将节点的1邻域划分为一个子集,标记为唯一划分;若将节点的1邻域分为两个子集,即节点本身的子集与邻节点子集,标记为基于距离的划分;若将节点的1邻域划分为三个子集,包括节点本身、空间位置上比本节点更靠近整个骨架重心的邻节点集合以及更远离重心的邻节点集合,根据运动分析对向心运动与离心运动进行定义,标记为空间构型划分。通过使用不同的骨架划分规则,实现动作分类器对动作类别的预测和评分。本发明的方法利用深度学习、智能视频行为分析和大数据分析等先进技术对视频数据中人员目标进行智能分析、快速研判和跟踪识别,实现异常动作的视频辅助分析以及安全事件的预警报警。具体而言,在石油领域,通过分析钻采生产作业人员的动作,能够及时发现人员目标潜在的危险,增强对异常情况的快速反应能力。此外,通过计算机视频分析技术对动态场景中人员目标进行定位、识别和关键点检测,在此基础上进行目标动作的分析和研判,减少人工干预的时间,避免了因人身意外和违规操作对油田生产造成的干扰和经济损失,从而保障了安全生产,节省了人力物力,提高了生产管理水平。此外,基于TP-STG框架的人体动作识别方法实现了复杂场景下人员动作识别与分析,不仅适用于油田领域,在医疗和安保等其他领域也具有重要的实际应用价值。综上所述,本发明的基于TP-STG框架的人体动作识别方法在复杂场景下对人体动作进行快速准确的识别,能够应用于多个领域进行目标定位与检测、姿态识别、关键点检测以及行为和动作的判别与分析。尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

权利要求:1.一种基于TP-STG框架的人体动作识别方法,其特征及具体步骤如下:S100以视频信息作为输入,将先验知识加入SVM分类器,提出后验判别准则以去除非人员目标;S200通过目标定位与检测算法分割出人员目标,并以目标框和坐标信息的方式输出,为人体关键点检测提供输入数据;S300利用改进的姿态识别算法进行身体部位定位和关联程度分析以提取到全部人体关键点信息,形成关键点序列;S400通过动作识别算法在关键点序列上构建时空图,对其应用于多层时空图卷积操作,并由Softmax分类器进行动作分类,实现复杂场景下的人体动作识别;在所述的步骤S100中,针对具体场景下的环境特点,匹配适合该场景下的先验知识,如海上石油平台这个复杂场景,由于人员目标的安全服颜色与某些柱形管道颜色和形态十分相似,颜色、纹理和形状特征难以区分,使用简单场景下常规模型经常混淆两者,导致较高的误报率;针对该类问题,本发明提出将先验知识加入SVM分类器,对检测目标和混淆目标进行SVM预训练,将识别出的非人员目标视为负样本去除,减少了负样本的计算量,提高了下一阶段目标检测的准确率。2.根据权利要求1所述的基于TP-STG框架的人体动作识别方法,其特征在于,所述的目标定位与检测算法包括:S210通过数据预处理将视频数据转换为图像数据,并进行样本标签化操作,作为算法的输入数据;S211把输入图像分成N*N个栅格,通过特征提取对每个栅格都预测r个边界框,如果一个物体的中心落在一个边界框内,那么这个栅格就负责检测这个物体;S212在图像上运行单个卷积网络得到边界框的置信度得分计算,这些置信度分数反映了边界框中包含目标的可信程度以及目标在预测框中的准确性;S213通过增加边界框坐标预测的损失计算,并减少对不包含目标边界框的置信度的预测损失,防止模型早期发散和不稳定;S214将边界框宽度和高度按照一定比例归一化,使得它们落在0和1之间,得到最终预测的目标类别概率和边界框坐标信息。3.根据权利要求2所述的基于TP-STG框架的人体动作识别方法,其特征在于,在所述的步骤S212中,在置信度得分的计算中,需要定义预测边界框和实际边界框的相交程度,以此作为置信度得分的计算依据,如果预测边界框单元中不存在目标,则置信分数应为零;否则置信度得分等于预测框和真实目标边界框之间的交集PIA与真实目标框groundtruth的乘积,由此置信度的定义表示为:式1中,Cr表示置信度,GrObject表示真实目标框,表示预测框和真实目标边界框之间的交集。4.根据权利要求2所述的基于TP-STG框架的人体动作识别方法,其特征在于,在所述的步骤S213中,损失计算通过总体目标损失函数完成,其中,坐标预测的损失函数Lx,y,w,h为:式2中,x,y表示相对于栅格单元的边界框的中心点的坐标,w和h表示整个输入图像的宽度和高度,而分别表示i个xi,yi,wi,hi的均值,表示判断第i个网络中的第j个栅格是否负责这个目标object,λ表示权重;含真实目标的边界框置信度预测的损失函数Lobj表示为:式3中,Ci表示第i个边界框的置信度值,而对于不含真实目标的边界框置信度预测的损失函数Lnoobj表示为:对于目标类别的预测的损失函数Lclass表示为:式5中,pic表示为第i个目标类别的概率,表示为i个目标类别的概率均值,求得各个损失函数后,各个损失函数加权融合得到最终目标损失函数Lf:Lf=Lx,y,w,h+Lobj+Lnoobj+Lclass6式6中,最终目标损失函数Lf为坐标预测的损失函数、含真实目标的边界框置信度预测的损失函数、不含真实目标的边界框置信度预测的损失函数和目标类别的预测的损失函数加权和。5.根据权利要求1所述的基于TP-STG框架的人体动作识别方法,其特征在于,所述的改进的姿态识别算法包括:S310以上一阶段目标检测得到的w*h大小的彩色图像作为输入;S311采取多尺度的方式,按照1.0比1.2倍的比例扩大感知野;S312经过VGG的前8层网络的特征提取得到一个特征映射F;S313网络分成两个循环分支,一个分支用于预测身体部位位置的二维置信度图S,进行身体部位定位得到人体所有可见的关键点,另一个分支用于预测像素点在骨架中的二维矢量场L,进行关联程度分析得到人体不可见的关键点;S314循环分支以特征图F作为输入,得到一组S1,L1;S315之后的分支分别以上一个分支的输出St-1,Lt-1和特征图F作为输入,不断进行迭代;S316经过p个阶段最终输出Sp和Lp;S317计算S,L的预测值与groundtruthS*,L*之间的L2范数,S和L的groundtruth根据标注的2D点计算,如果某个关键点标注缺失,则不计算该点的值,最终输出所有关键点的信息;在所述的步骤S313中,两个循环分支分别回归S和L,每一个阶段计算一次损失,之后把S和L以及原始输入继续输入下一个阶段进行训练;随着迭代次数的增加,在已知的关键点位置的基础上,利用矢量之间的位移长度建立人体各部位之间的相对位置关系,从而实现人体不可见关键点的预测与估计。6.根据权利要求1所述的基于TP-STG框架的人体动作识别方法,其特征在于,所述的动作识别算法包括:S410以上一阶段姿态识别得到的人体关键点的连续序列作为输入;S411使用图结构规则,充分利用空间和时序结构信息来构建时空图;S412在时空图上使用多层图卷积操作以提取高层特征,对应的空间划分规则;S413判断时空图节点的邻域子集个数,设计对应的空间划分规则并确定使用的规则;S414利用标准的Softmax动作分类器进行动作分类;S415输出动作类别标签和相应的动作评分。7.根据权利要求6所述的基于TP-STG框架的人体动作识别方法,其特征在于,在所述的步骤S411中,构建时空图时,在每一视频帧内部,按照人体的自然骨架连接关系构造空间图,同时将相邻两帧的相同关键点连接构成时序边,所有输入帧中的关键点构成节点集V,所有的有向边构成边集E,按照上述规则得到时空图G=V,E,自然地保留了骨架关键点的空间信息,并使得关键点的运动轨迹以时序边的形式得到表现;在图中具体而言,节点集合V={vti|t=1,2...T,i=1,2...N}包含关键点序列上的所有的关节点,其中,T表示视频帧数,N表示人体所有关键点的个数,设置为18;当构建时空图时,关键点上的第t帧、第i个关节点的特征向量Fvti是由关键点的坐标信息和置信度组成的;边的集合E有两个子集组成,分别是每一视频帧帧内关节点的链接Es={vtivtj|i,j∈P}以及不同视频帧帧间的链接Et={vtivt+1i},其中,P表示人体所有关键点的集合,i,j分别是关键点集合中的两个任意关节。

百度查询: 中国石油大学(华东) 一种基于TP-STG框架的人体动作识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。