买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:之江实验室
摘要:本发明公开一种基于多模态大模型CLIP的视频动作识别方法及装置,该方法包括:基于给定的动作类别和视频序列,首先使用词向量模型和分割图像块提取相应的语言和视频信息;其次,基于提示调整结构以及可训练轻量级瓶颈模块适配器调整CLIP的图像编码器和文本编码器,提取语言和视频帧特征;进一步,使用时序差分注意力模块充分挖掘视频帧时序间的特征;最后,对比视频特征和类别编码特征,粗细粒度地计算两者之间的相似性得分,选择得分最高动作类别作为预测结果。本发明通过微调结构的设计,能有效提高判断视频动作类别的性能以及网络模型的泛用性,满足现实生活中复杂场景的视频动作识别需求。
主权项:1.一种基于多模态大模型CLIP的视频动作识别方法,其特征在于,该方法包括如下步骤:S1:给定一个包含T帧的视频,将每帧视频分割成等大的非重叠正方形图像块,通过线性投影层将每个图像块映射为一个序列的图像块嵌入,并在每个帧的嵌入序列开头添加一个可学习的类别标记,作为Transformer模块的输入;S2:给定一个类别标签,对所述类别标签使用文本类别模版生成文本描述,使用字节对编码处理文本描述生成词序列;S3:将步骤S1得到的图像块嵌入和步骤S2得到的文本描述分别传入视觉编码器和文本编码器,得到视觉编码特征与类别编码特征;3.1在每个Transformer模块中的输入序列的前面添加一组可训练的提示词,并与所有输入词元进行交互,将和El-1分别表示第1层Transformer模块的视觉提示输入和图像块特征,提示调整将可学习的提示添加到每个Transformer模块Φl中,第l个Transformer模块处理输入的视觉提示表示如下:[xl,cls,-,El]=Φl[xl-1,cls,Pl-1,El-1],l=1,...,L;其中,对应位置的的输出特征被丢弃,记作“_”,M表示文本提示的数量;文本提示被添加到文本编码器的每个层中;第1层的文本提示和词特征嵌入分别为对于第1层,输入的文本提示表示为: 3.2对于第1层的输入特征xl,可训练轻量级瓶颈模块适配器执行以下计算: 其中,Wdown,Wup分别为下采样映射和上采样映射的权重矩阵,表示中间输出值,xl表示第1层的输出特征,x′l表示第1层的输入特征,s表示尺度因子;将来自前一层的输出xl-1投影到矩阵Pk和Pv,然后将计算得到的矩阵Pk和pv与原始的键和值矩阵相加,执行多头自注意力操作;该过程的计算描述如下:Pk,pv=ReLUxl-1WdownWup; MSAxl-1=Concathead1,head2,...,headhWo;其中,分别表示第i个注意力头的查询、键以及值变换的权重矩阵,Q,K,V分别表示自注意力机制中的查询、键和值矩阵;h代表注意力头headi的总数目;Wo表示线性变换的权重矩阵,Concat表示特征拼接;3.3采用视觉骨干网络作为视觉编码器,输入视觉图像块得到视觉特征编码ev;采用预训练语言骨干作为文本编码器,对词序列进行编码生成类别编码特征es;S4:将步骤S3得到的视觉编码特征传入时序差分注意力模块,得到最终视频表示;具体过程如下:给定一个视频特征序列ef=f0,f1,f2,...,fn-1,其中每个fi表示第i帧的嵌入,计算相邻帧嵌入之间的差异,捕捉短期时序信息;使用Sigmoid函数得到增强差分的特征嵌入表达式如下: 其中,P代表位置编码,和表示相邻两帧的特征,σ为激活函数,Φ表示transformer层;将增强差分的特征嵌入在每对相邻帧之间插入,以获得时间特征编码Fte: 其中,Tte为类型编码特征;S5:将步骤S4获得的最终视频表示与步骤S3获得的类别编码特征,进行粗粒度对比学习和细粒度对比学习;选择最终相似度得分最高的动作类别作为该视频动作识别的预测结果。
全文数据:
权利要求:
百度查询: 之江实验室 一种基于多模态大模型CLIP的视频动作识别方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。