首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种针对视频行为检测的行为提议生成方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:东南大学

摘要:本发明公开一种针对视频行为检测的行为提议生成方法。在特征提取阶段,使用slow和fast两个通道分别提取视频的空间信息和时间信息;在行为提议生阶段,首先对提取到的空间信息和时间信息使用不同的预处理过程,并在两个不同阶段进行融合,接着,使用PFGlayer为每个行为提议进行采样,生成提议特征,并分别输送到TEM和PEM用以预测边界可能性序列和边界匹配置信度图,最后,对预测结果进行置信度融合生成候选行为提议,并使用Soft‑NMS算法进行筛选。本发明能够在原始视频未裁剪的情况下,对未裁剪视频生成行为提议,分割出视频中包含行为的视频片段,定位出行为发生的起始时间和结束时间。

主权项:1.一种针对视频行为检测的行为提议生成方法,其特征在于,所述方法包括以下步骤:步骤1:构建设计SlowFast神经网络,将SlowFast神经网络设计为slow和fast两个通道,每个通道均采用3DResnet-50作为主干网络,在Kinetics-600数据集上对SlowFast网络进行训练至收敛,得到SlowFast深度特征提取模型;步骤2:使用步骤1训练好的SlowFast深度特征提取模型对ActivityNet数据集进行特征提取,得到ActivityNet深度特征数据集;步骤3:构建设计BMNPlus神经网络及特定的损失函数,在步骤2的ActivityNet深度特征数据集上对BMNPlus网络进行训练至收敛,得到行为提议生成模型;步骤4:使用两个不同的帧率对原始未裁剪视频进行采样,分别得到低帧率采样视频和高帧率采样视频;步骤5:将步骤4的低帧率采样视频输入到步骤1中的slow通道得到slow深度特征序列,将步骤4的高帧率采样视频输入到步骤1中的fast通道得到fast深度特征序列;步骤6:将步骤5中的slow深度特征序列和fast深度特征序列分别使用不同的三层卷积层进行预处理,在第二个卷积层之后进行融合得到PEM融合特征序列,在第三个卷积层之后进行第二次融合得到TEM融合特征序列;步骤7:设计PFGlayer分别对TEM融合特征序列和PEM融合特征序列进行采样,在开始时间区域内和结束时间区域内分别采样8个点,在持续时间区域内采样16个点,分别生成TEM提议特征序列和PEM提议特征序列;步骤8:将步骤7中的TEM提议特征序列输入TEM,输出得到边界可能性序列,将步骤7中的PEM提议特征序列输入到PEM,输出得到边界匹配置信度图;步骤9:结合步骤8中的边界可能性序列和边界匹配置信度图,为每个行为提议生成融合置信度,再使用Soft-NMS算法对候选行为提议进行筛选,生成最终的行为提议;步骤6的具体过程如下:将slow深度特征序列和fast深度特征序列输入到BM预处理模块中,BM分别对slow深度特征序列和fast深度特征序列进行不同的预处理过程,预处理过程包含三个卷积层,在第二个卷积层之后进行特征融合得到PEM融合特征序列,在第三个卷积层之后进行第二次特征融合得到TEM融合特征序列,整个BM模块可以表示为如下过程:假定BM输入的slow特征序列和fast特征序列分别记为sf1和ff1,则sf1经过conv1d11和conv1d12两个卷积层之后得到深度特征序列sf2,sf2的构造表示如下:sf2=Fconv1d12Fconv1d11sf1其中F表示卷积层操作,F符号右下角表示卷积层命名;ff1经过conv1d21和conv1d22两个卷积层之后得到深度特征序列ff2,ff2构造表示如下:ff2=Fconv1d22Fconv1d21ff1sf2和ff2通过sum求和得到PEM融合特征序列记为pemf,pemf的构造表示如下:pemf=sf2+ff2sf2、ff2、pemf分别经过conv1d13、conv1d23、conv1d33卷积层之后得到新的特征序列Fconv1d13sf2、Fconv1d23ff2和Fconv1d33pemf,对三个新的特征序列进行求平均值得到最后的TEM融合特征序列,记为temf,temf的构造表示如下: 步骤7的具体过程如下:对于每一个行为提议,设计PFGlayer采样方法,从提议的开始时间区域内采样8个点,从提议的结束时间区域内采样8个点,从提议的持续时间区域内采样16个点,一共采样32个点,为每个行为提议生成提议特征序列,TEM融合特征序列经过PFGlayer采样后得到TEM提议特征序列,PEM融合特征序列经过PFGlayer采样后得到PEM提议特征序列;PFGlayer的采样过程如下:首先,对于每个行为提议其中ts表示提议的开始时间,te表示提议的结束时间,通过线性插值,从左边的时间区域rs=[ts-dgk,ts+dgk]中采样8个点,从右边的时间区域re=[te-dgk,te+dgk]中采样8个点,从中间的区域ra=[ts,te]中采样16个点,其中dg=te-ts,k=5;然后,利用这32个采样点的行为提议生成提议特征,假设提议生成的提议特征为所有T×T个行为提议生成的特征为fp,PFGlayer的输入特征为fin,其中的维度为N×C,fp的维度为T×T×N×C,fin的维度为T×C,C表示特征通道数,具体的提议特征构造过程如下: 其中n表示第n个采样点,表示提议特征在坐标n,c上的值,表示输入特征fin在坐标tl,c上的值,表示输入特征fin在坐标tr,c上的值,wl表示的权重,wr表示表示的权重,tl、wl、tr、wr的构造表示如下: tr=1+tlwr=1-wl其中,设定Nl=Nr=8,Nc=16,N=Nl+Nr+Nc=32,由于一个行为提议的开始时间不可能晚于结束时间,因此,如果提议中的ts≥te,需要将该提议的提议特征置为0。

全文数据:

权利要求:

百度查询: 东南大学 一种针对视频行为检测的行为提议生成方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术