Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于动态位置嵌入的课堂完备元动作识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:桂林电子科技大学

摘要:本发明公开了一种基于动态位置嵌入的课堂完备元动作识别方法,包括:得到单个学生课堂元动作视频、对视频进行关键帧采样;构建由动态位置嵌入的位置编码模块、VideoSwinTransformer基本模块、ViT3D基本模块组成的课堂完备元动作识别模型,依次获得动态位置特征表示、多个局部注意力向量、元动作类别概率向量、对课堂完备元动作识别模型进行迭代优化;将预处理后学生课堂元动作视频输入该模型获得课堂学生元动作类别。这种方法不仅使用动态位置嵌入方法进行条件位置编码结合深度卷积网络以提升对元动作空间结构的解析能力,并采用ViT3D的全注意力机制提取动作的潜在空间特征,捕捉元动作的全局时空信息,从而提升课堂视频的学生完备元动作识别准确率。

主权项:1.一种基于动态位置嵌入的课堂完备元动作识别方法,其特征在于,包括如下步骤:1首先获取高清课堂学生视频数据,对高清课堂学生视频数据进行人体检测,得到单个学生课堂元动作视频;2对单个学生课堂元动作视频进行采样,采样帧率为8~32帧视频,输入为学生动作视频帧序列,输出为学生动作关键视频帧;3构建基于动态位置嵌入的条件位置编码模块,输入为学生动作关键视频帧,输出为动态位置特征表示,包括:3-1动态位置嵌入如公式1所示:DPEX=DWConvX1;3-2公式1中DWConv表示卷积过程中采用零填充,使数据中的各个元素通过逐步探索其邻居信息来理解在数据中的绝对位置,X表示输入视频帧;4构建视频滑窗变换器VideoSwinTransformer基本块:输入为动态位置特征表示,输出为多个局部注意力向量,包括:4-1VideoSwinTransformer在Transformer编码器中引入窗口注意力,实现层次结构、局部性和转换不变性;4-2VideoSwinTransformer基本块先经过窗口自注意力3DW-MSA计算,再经过规范化层LN,并且进行残差连接,然后进行MLP层与规范化层特征筛选,在连续的VideoSwinTransformer模块中交替采用两种分区配置,原理如公式2-公式5所示: 公式2-公式5中,zl-1表示VideoSwinTransformer基本块输入,zl和zl+1是滑窗窗口自注意力计算及多层感知机MLP层输出的特征,3DW-MSA表示3维窗口注意力计算,3DSW-MSA表示3维带滑窗窗口注意力计算,LN表示规范化层;5构建ViT3D基本块:输入为步骤4输出的所有局部注意力向量,输出为元动作类别概率向量,包括:5-1ViT3D模块是ViT经过参数膨胀,将视频或者多张图片拼接成一组输入,使得模型深层特征图中所有小块patches进行完全注意力计算;5-2VideoSwinTransformer模块输出n张特征图后,输入到ViT3D模块中的TansformerEncoder进行完全注意力计算,提取每个像素块的注意力向量,原理如公式6所示: 5-3公式6中,Q为Query矩阵,表示当前的查询或问题,与当前处理的位置或元素相关,K为Key矩阵,表示数据集中所有可能的键,V为Value矩阵,表示与每个键相关联的值,KT表示K矩阵的转置,dk为Key的维度,Softmax函数,将输入的向量转换为概率分布,确保所有输出的权重加起来等于1;5-4每个像素块的注意力向量经过MLPHEAD层进行分类,得到识别的课堂元动作;6构建由动态位置嵌入的位置编码模块、VideoSwinTransformer基本模块、ViT3D基本模块组成的课堂完备元动作识别模型,并进行训练,训练采用VideoSwinTransformer模型框架,总迭代次数为10~1000轮,训练采用AdamW优化器进行梯度下降优化,主干网络的学习率设置为3e-5,Batchsize设置为8~512;7对新的课堂学生元动作视频进行人体检测并得到单个学生课堂元动作视频,输入已经训练好的课堂完备元动作识别模型,输出课堂学生元动作类别。

全文数据:

权利要求:

百度查询: 桂林电子科技大学 一种基于动态位置嵌入的课堂完备元动作识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。