买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:特斯联科技集团有限公司
摘要:本发明公开了一种时序动作检测方法、装置、存储介质及终端,方法包括:获取动作视频;将动作视频输入到预先训练的动作检测网络中;其中,预先训练的动作检测网络是基于多个局部‑全局融合特征训练生成的,多个局部‑全局融合特征是根据局部自注意力模块和全局自注意力模块构建的;输出动作视频中的时序动作信息。本申请采用了自注意力模块,不仅能保留卷积层在视频中提取的长时序特征的信息,也能在长时序特征上捕获全局特征,从而减少了信息缺失,同时通过局部自注意力模块和全局自注意力模块构建多个局部‑全局融合特征,能对时序视频的上下文信息融合并利用,使得基于多个局部‑全局融合特征训练网络过程中GPU的利用率和计算效率大大提升。
主权项:1.一种时序动作检测方法,其特征在于,所述方法包括:获取动作视频;将所述动作视频输入到预先训练的动作检测网络中;其中,所述预先训练的动作检测网络是基于多个局部-全局融合特征训练生成的,所述多个局部-全局融合特征是根据局部自注意力模块和全局自注意力模块构建的;输出所述动作视频中的时序动作信息;其中,按照以下步骤生成预先训练的动作检测网络,包括:构建动作检测网络;其中,所述动作检测网络至少包括I3D网络、卷积模块、局部自注意力模块、全局自注意力模块、回归模型以及分类模型;获取未剪辑的源视频,并根据所述I3D网络、卷积模块以及未剪辑的源视频生成降维的时序特征;根据所述局部自注意力模块、全局自注意力模块分别与降维的时序特征构建出多个局部融合特征和全局融合特征;将每个局部融合特征与所述全局融合特征分别进行融合,生成多个局部-全局融合特征;根据所述多个局部-全局融合特征、回归模型以及分类模型生成多个偏移量参数和动作参数;根据所述多个偏移量参数和动作参数计算所述动作检测网络的目标损失值,并基于所述目标损失值确定是否生成预先训练的动作检测网络;其中,所述根据所述局部自注意力模块、全局自注意力模块分别与降维的时序特征构建出多个局部融合特征和全局融合特征,包括:通过预先设置的多个不同窗口大小的滑窗在所述降维的时序特征上沿着时序方向滑动,得到多个滑窗特征;将每个滑窗特征依次输入所述局部自注意力模块中,输出每个滑窗局部特征集合;将所述每个滑窗局部特征集合中各局部特征沿着时序方向进行拼接,得到多个局部融合特征;将所述降维的时序特征输入所述全局自注意力模块中,输出全局融合特征;其中,所述根据所述多个局部-全局融合特征、回归模型以及分类模型生成多个偏移量参数和动作参数,包括:将所述多个局部-全局融合特征并行输入到预先训练的BMN网络中进行提名,输出起始边界点和结束边界点;根据所述起始边界点和结束边界点得到起始局部区域特征、结束局部区域特征以及主要局部区域特征;将所述起始局部区域特征、结束局部区域特征分别输入到所述回归模型中,输出起始点偏移量和结束点偏移量;将所述起始局部区域特征、结束局部区域特征以及主要局部区域特征拼接后,生成局部区域融合特征;将所述局部区域融合特征输入到所述回归模型中,输出片段中心点偏移量、片段长度偏移量以及包含动作的概率;将所述局部区域融合特征输入到所述分类模型中,输出动作类别;将所述起始点偏移量、结束点偏移量、片段中心点偏移量以及片段长度偏移量确定为多个偏移量参数,并将所述包含动作的概率以及动作类别确定为动作参数;其中,所述根据所述起始边界点和结束边界点得到起始局部区域特征、结束局部区域特征以及主要局部区域特征,包括:以所述起始边界点、结束边界点为中心点扩展出起始局部兴趣区域和结束局部兴趣区域;将所述起始边界点和所述结束边界点之间的区域确定为主要局部兴趣区域;将所述起始局部兴趣区域、结束局部兴趣区域以及主要局部兴趣区域和与其对应的时序特征分别进行时序兴趣区域对齐,得到起始局部区域特征、结束局部区域特征以及主要局部区域特征。
全文数据:
权利要求:
百度查询: 特斯联科技集团有限公司 一种时序动作检测方法、装置、存储介质及终端
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。