买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于RGB图像的手部姿态评估方法,属于计算机视觉技术领域,包括以下步骤:S1、提出一种基于注意机制的多尺度信息感知模型来获取手势关键点信息;S2、通过分布感知的关键点坐标表示方法对手部姿势进行更精确的估计;S3、基于深度学习模型对给定应用和平台选择恰当的速度和精度平衡。本发明采用上述的一种基于RGB图像的手部姿态评估方法,提出了一种MSIPA‑HandNet算法,通过利用多尺度信息感知结构和分布感知的坐标表示,以取得更好的速度和准确性平衡,用于手部姿态估计,基于速度精度权衡问题,提出了一个综合的度量标准,用于评估手部姿态估计,并为优化手部姿态估计模型提供了有价值的意见,使用手势关键点位置信息,方便应用。
主权项:1.一种基于RGB图像的手部姿态评估方法,其特征在于:包括以下步骤:S1、提出一种基于注意机制的多尺度信息感知模型来获取手势关键点信息;所述基于注意机制的多尺度信息感知模型为编码器-解码器结构,编码器-解码器结构由下采样与上采样构成,下采样中以3×3深度可分离卷积作为基本单元,上采样以4×4反卷积块作为基本单元;所述下采样中包括基于注意力机制的多尺度信息感知结构MSIPA,MSIPA由改进的空洞卷积金字塔和随机打乱注意力结构SA组成,在MSIPA结构添加了一条从输入到输出的1×1卷积的跳跃连接保证网络的梯度传递,F′=f3F1 F表示输入MSIPA结构的特征图,F′与F″都表示MSIPA结构过程中产生的特征图,f3·表示卷积核为3×3的卷积函数,fn,m·表示卷积函数,n表示n×n卷积核大小,m是卷积的膨胀系数,AvgP·表示平均池化,⊙表示通道拼接,F″输入到SA结构中,假设输入特征为F″∈RC×H×W,该步骤会将输入F″沿着通道维度拆分为g组:F″=[F″1,...,F″g],RCg×H×W,对于每组特征,上面1-g组的任意一组的特征Fk″将被沿着通道维度拆分成两个分支:F″k1,F″k2∈RC2g×H×W,一个分支用于学习通道注意力特征,一个分支用于学习空间注意力特征;S2、通过分布感知的关键点坐标表示方法对手部姿势进行更精确的估计;所述分布感知的关键点坐标表示方法包括以下步骤:S2.1、热图分布调制;为了平滑热图H中多峰值的影响,利用高斯核K与训练数据具有相同的变化,公式表示为: 其中,表示卷积操作,H′表示经过高斯核K卷积处理后的平滑化热图;使用下面的变换,我们缩放使其最大激活度等于H,保留了原始热图的大小: 其中,max·和min·返回输入矩阵的最大值和最小值,表示经过热缩放后的热图;S2.2、分布感知的最大重定位;在子像素水平上获得准确的位置信息,假设预测的热图遵循二维高斯分布与真实热图相同,它表示预测的热图为: 其中,x是预测热图中的一个像素位置,μ表示要估计的联合位置的高斯平均值,T表示矩阵的转置,协方差Σ是一个对角矩阵,与坐标编码相同, 其中,σ是两个方向的标准差,在保持最大激活的原始位置的同时,对hx;μ,Σ进行对数转换, μ表示要估计的联合位置的高斯平均值,作为分布的一个极端点,高斯平均值μ的一阶导数符合以下条件: 使用泰勒定理进行探讨,泰勒级数直到二次项被用来近似预测热图中最大Gμ的激活度,其中泰勒级数是在预测热图的最大激活度m下估算的, 其中,Gμ表示函数G在高斯平均值为μ处的值,Gm表示函数G在μ-m处的值,D′m表示函数G在μ-m处的一阶导数,D″m是在m处评价G的二阶导数,定义为:D″m=D″xx=m=-Σ-114为了近似于μ,m应该代表一个良好的粗略的联合预测来接近μ;根据公式12、公式13和公式14得到:μ=m-D″m-1D′m15其中,D″m和D′m从预测热图中估计出来;S2.3、分辨率恢复;根据S2.2中得到的μ,由下述公式来预测原始图像空间的坐标: 其中,λ表示分辨率降低率,表示经过分辨率降低后的图像空间中的对应坐标点,p表示原始图像空间中的坐标点;S3、基于深度学习模型对给定应用和平台选择恰当的速度和精度平衡。
全文数据:
权利要求:
百度查询: 南华大学 一种基于RGB图像的手部姿态评估方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。