买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开一种基于双主干特征融合的课堂学生姿势识别方法,属于计算机视觉与教育技术领域,方法包括:获取课堂中学生的现场图片或视频;利用双主干特征提取网络对现场图片或视频进行特征提取;将各主干得到的对应尺度相同的特征图按照对应比例进行拼接融合,得到三层新特征图;将所述三层新特征图输入至解耦合头预测结构,进行特征图整合及预测数据解码计算,得到预测边框信息;将预测边框信息进行预处理,得到预测框及其对应的置信度,并将所述预测框进行非极大值抑制,得到课堂学生姿势识别结果。本发明通过双主干网络提取特征的方式,有效挖掘和融合多尺度视觉特征,实现了对复杂场景下的多目标学生姿势的精准高效识别。
主权项:1.一种基于双主干特征融合的课堂学生姿势识别方法,其特征在于,包括:获取课堂中学生的现场图片或视频;利用双主干特征提取网络对现场图片或视频进行特征提取,每个主干分别得到三个尺度不同的特征图;将各主干得到的对应尺度相同的特征图按照对应比例进行拼接融合,得到三层新特征图;将三层新特征图输入至解耦合头预测结构,进行特征图整合及预测数据解码计算,得到预测边框信息;将预测边框信息进行预处理,得到预测框及其对应的置信度,并将所述预测框进行非极大值抑制,得到课堂学生姿势识别结果;所述双主干特征提取网络包括基于CNN的轻量级混洗主干网络和基于Transformer的滑窗视觉主干网络;所述基于CNN的轻量级混洗主干网络,包括混洗空间下采样单元模块和混洗基本单元模块;所述基于Transformer的滑窗视觉主干网络,包括视觉分割层、线性编码模块、窗口分组模块A和窗口分组模块B;所述基于CNN的轻量级混洗主干网络与所述基于Transformer的滑窗视觉主干网络通过各主干网络提取到的特征拼接在一起;在所述混洗空间下采样单元模块上的运算操作为:S1,将输入的特征图X1先进行基本卷积模块运算,基本卷积模块点卷积+批量归一化+ReLu激活函数,然后进行下采样深度可分离卷积模块运算,下采样深度可分离卷积模块为深度可分离卷积+批量归一化运算,然后再进行基本卷积模块运算,得到输出特征图X11;S2,将输入的特征图X1先进行下采样深度可分离卷积模块运算,然后再进行基本卷积模块运算,得到特征图X12;S3,将X11与X12进行通道维度的拼接得到特征图Y1;S4,对特征图Y1进行通道维度的混洗操作得到特征图,通道维度的混洗操作计算方式为,其中,为对特征图Y1进行通道维度的混洗操作得到的特征图,group为分组数,为批大小,h和w分别为特征图Y1高度和宽度,c为特征图Y1的通道数,则表示将Y1按照的形状重新排列并展平成一个5维张量,transpose表示将的结果中所在维度和所在维度的位置进行互换;在所述混洗基本单元模块的运算操作为:S1,将从所述混洗空间下采样单元模块得到的特征图先进行分支划分为,将其在通道维度按照,其中,为对特征图进行分支划分得到的第一分支,为对特征图进行分支划分得到的第二分支,为输入特征图的通道数;S2,将第一分支先进行基本卷积模块运算,然后进行深度可分离卷积模块运算,深度可分离卷积模块为深度可分离卷积+批量归一化运算,然后再进行基本卷积模块运算,得到运算输出;S3,将与进行通道维度的拼接得到特征图Ys;S4,对特征图Ys进行通道维度的混洗操作得到特征图,通道维度的混洗操作计算方式为,其中,group为分组数,为批大小,h和w分别为特征图高度和宽度,Cs为特征图Ys的通道数,则表示将Y1按照的形状重新排列并展平成一个5维张量,transpose表示将的结果中所在维度和所在维度的位置进行互换,最终输出的特征图,为混洗基本单元模块输出的特征图序列,包括多个特征图[Os1、Os2、Os3]用于后续的特征融合操作;所述视觉分割层将输入的特征图X1利用卷积运算进行维度转化,得到输出特征图X1p,其中H和W分别代表特征图X1的高度和宽度;所述线性编码模块包括线性编码层和两个滑窗视觉模块,所述线性编码层是对经过视觉分割层运算后得到的特征图X1p按照X1p’=X1pE+Epos进行线性投影操作,其中E是线性投影的可学习权重矩阵,Epos是跟X1p位置相关的有D个维度的可学习位置嵌入,经过线性投影操作,将原始的X1p序列映射为D个维度的X1p’序列;所述窗口分组模块A包括一个窗口分割层和两个滑窗视觉模块,窗口分组模块B包括一个窗口分割层和六个滑窗视觉模块;所述窗口分割层按照的方式生成不同尺度的窗口序列,进而实现下采样操作,即特征图高和宽减半、通道翻倍,其中为当前运算尺度的卷积核,为当前运算尺度的跨层卷积核,LN为层归一化操作,k为从0到i-1的的累加变量,n为窗口分割的总层数;所述滑窗视觉模块包括串行连接的窗口注意力模块和移位窗口注意力模块;其中,在所述窗口注意力模块上的运算操作为:S1,对输入的序列进行层归一化,为后续操作提供数据分布;S2,将归一化后的序列划分成M个窗口,在每个窗口内计算标准的多头自注意力,其计算方式为: ;其中,为线性投影,计算输出注意力特征图;Wq、Wk、Wv是可学习的权重矩阵,分别用于生成查询向量、键向量和值向量;T表示转置,表示缩放因子,B表示相对位置偏执;S3,将与进行残差连接得到’;S4,对’进行归一化,得到';S5,将'输入前馈网络,按照X1F=σ'W1+b1W2+b2,其中W1、W2为线性层,σ为GELU非线性函数,得到前馈特征X1F;S6,将'与X1F进行残差连接得到X1F’,作为下一模块输入;所述移位窗口注意力模块对窗口注意力模块步骤S2进行了扩充,在窗口注意力模块基础上引入了窗口移位操作,具体运算操作为:S1,对输入的序列X1F’进行层归一化,为后续操作提供数据分布;S2,将归一化后的序列X1F’先进行移位操作,生成移位版本X1F’_s;然后将移位版本的X1F’_s按照窗口注意力模块的步骤S2窗口注意力层的计算方式进行处理,计算输出注意力特征图_s;最后对_s做反向移位操作,还原成;S3,将与进行残差连接得到’;S4,对’进行归一化,得到';S5,将'输入前馈网络,按照X1FF=σ'W1+b1W2+b2,其中W1、W2为线性层,σ为GELU非线性函数,得到前馈特征X1FF;S6,将'与X1FF进行残差连接得到特征图Ow,最终输出的特征图Ow,为滑窗视觉主干网络输出的特征图序列,包括多个特征图[Ow1、Ow2、Ow3],用于后续特征融合操作。
全文数据:
权利要求:
百度查询: 南京邮电大学 一种基于双主干特征融合的课堂学生姿势识别方法及系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。