买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:武汉大学深圳研究院;深圳市新一代信息技术研究院有限公司
摘要:本发明公开了一种基于空间注意力约束的LSTM模型的视频摘要生成方法,基于一般现实规律:镜头会聚焦且跟随关键信息,在长短期记忆模型LSTM预测视频帧的重要性的基础上,进一步提出空间注意力用于约束长短期记忆模型LSTM,并根据背包算法挑选关键帧,其将视频文件分解成帧序列,按时序依次使用深度神经网络分别提取视频帧的空间域几何特征和深度特征;空间域几何特征用于确定图像画面中,能够引起观众注意的区域,并预测该区域能够获得的注意力;深度特征作为LSTM模型的输入,经计算形成LSTM模型的隐含信息能够用于预测当前图像与上下文之间的关联性分数;将空间注意力分数对LSTM模型的关联性分数计算进行约束,有效的提升了视频摘要的生成结果。
主权项:1.一种基于空间注意力约束的LSTM模型的视频摘要生成方法,其特征在于:包括如下方法:①生成视频摘要:在给定的一段长视频序列中,提取出关键帧序列组成一段短视频,其中w,h,c是视频帧的长、宽、通道数,t为视频帧序号,T为视频帧的总数,表示第t帧是否被选为关键帧,“1”表示为真,“0”为假,生成的视频摘要表示为Xsub={xt|t∈E},E={t∈[1,T]|yt=1};②由空间几何特征zt、深度特征vt两种信息对视频摘要进行描述;具体实现包括如下步骤;步骤1,给定视频帧图像的空间几何特征特征表达和深度特征表达分别为步骤2,空间注意力约束模型:空间几何特征是空间注意力约束模型的输入,该特征是像素块灰度值的集合zt={oi,j:i∈[1,w],j∈[1,h]},通过灰度值的大小反映一张图像显著区域和非显著区域;如果像素块的灰度值大于预设的阈值则区域标定为显著域,否则是非显著域;因此,一张图像的显著域面积大小记作则该图像的空间注意力分数记作lt,为当前图像的显著域在所有视频序列显著域面积和的占比步骤3,LSTM模型:整个的深度特征作为LSTM模型的输入,LSTM模型处理后隐层状态为隐含状态封装了前向帧信息和当前信息的语义信息,最后连接多层感知网络,输出每一帧与上下文关联性分数值mt计算公式为,mt=ppt|p1,p2,...,pt-1,V,其中LSTM模型为每一帧图像预测的概率值p·表示多层感知网络计算视频图像的上下文关联性分数值函数;步骤4,空间注意力约束下的重要性分数:空间注意力约束条件下的重要性分数表示为βt=mt+λ·lt,其中λ为空间注意力分数的影响因子;步骤5,关键帧序列的选择,“每帧是否被选为关键帧”这一事件符合背包问题,不大于最大容量N下,选择的关键帧数最少,选择的关键帧的价值和最大,即视频摘要长度不大于原始视频长度的15%,并且满足最少帧数下最大化重要性分值总和。
全文数据:
权利要求:
百度查询: 武汉大学深圳研究院 深圳市新一代信息技术研究院有限公司 一种基于空间注意力约束的LSTM模型的视频摘要生成方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。