恭喜东南大学刘波获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜东南大学申请的专利融合表情信息的密集视频描述方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114694062B 。
龙图腾网通过国家知识产权局官网在2025-03-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210257432.5,技术领域涉及:G06V20/40;该发明授权融合表情信息的密集视频描述方法及系统是由刘波;王陶然;汪铭;胡明芮;曹玖新设计研发完成,并于2022-03-16向国家知识产权局提交的专利申请。
本融合表情信息的密集视频描述方法及系统在说明书摘要公布了:本发明公开了一种融合表情信息的密集视频描述方法及系统,本发明的方法步骤如下:首先利用预训练好的I3D模型和InceptionV3模型分别提取视频的动态特征和行为类别特征;再基于视频上下文截取若干可能存在行为的视频片段,并为其各生成描述性文本;之后根据视频片段的视觉和文本信息,对候选人物的行为进行识别和跟踪;根据视觉和音频信息,预测行为主体表情类别;根据文本和表情信息,构建模型,生成融合表情信息的密集视频描述。系统采用web交互技术实现描述生成结果的可视化展示。本发明可以有效提高生成描述的准确性及丰富性,鲁棒性强。此外,结合语音合成等技术,本发明还能帮助视障人士较好的理解视频。
本发明授权融合表情信息的密集视频描述方法及系统在权利要求书中公布了:1.一种融合表情信息的密集视频描述方法,其特征在于,该方法包括以下步骤:1视频特征提取对视频进行帧率统一的预处理,利用预训练好的I3D模型提取帧率统一预处理后的视频的动态特征,并利用预训练好的InceptionV3模型提取帧率统一预处理后的视频的行为类别特征;2密集视频概要描述生成根据步骤1中得到的视频的动态特征以及行为类别特征,从给定的一段视频中,截取若干最有可能存在行为的视频片段,根据视频片段的视觉信息,选择一组含有高度相关行为的视频片段,并针对视频片段生成一条描述性语句;步骤2具体包括步骤:2-1根据步骤1得到的视频的动态特征V={v1,v2,…,vT},其中vi,i=1…T表示每帧视频的行为类别特征,T表示该视频抽帧的数量,利用双向SST算法,使用正向流和反向流信息,在每个时间步计算相应视频片段存在行为的概率,各行为片段的综合置信度分数Cp,计算公式如下: 其中表示正向流置信度分数,表示反向流置信度分数,N表示时间步的数目,的计算方式如下: 其中σ表示Sigmoid函数,表示在时间步t时的视频流置信度分数,表示在时间步t时LSTM单元的隐藏状态,是表示比例系数的训练参数,bc是表示偏移系数的训练参数,输出最终置信度分数高于阈值的行为片段集合P,P可形式化表示为:P={p1,p2,…,pM} 其中pi,i=1…M表示最终置信度分数高于阈值的每个行为片段,表示行为片段pi的开始时间,表示行为片段pi的结束时间,表示反向流LSTM单元在行为片段pi开始时间步的隐藏状态,表示正向流LSTM单元在行为片段pi结束时间步的隐藏状态;2-2对于行为片段集合P,根据指针网络,利用注意力机制,使用循环神经网络输出关于输入序列的概率分布,在每个时间步计算关于行为片段集合P的权值at,at的计算方式如下: 其中ATT·表示Attention函数,表示当前指针ptr对应的LSTM单元的隐藏状态,upi通过以下方式计算得到:upi=[Locpi,Vispi]5Vispi表示行为片段pi的视觉特征,Locpi表示行为片段pi在整个视频中的位置;将权值at作为选择各行为片段的概率,选择概率最高的输入元素作为输出,从而实现从候选行为片段中选择一组高度相关的行为片段的目标;2-3使用动态注意力机制以及门控机制融合行为类别信息、上下文视觉信息以及当前行为片段视觉信息,利用融合后的视觉信息生成描述,对于行为片段根据其时间戳从动态特征序列V={v1,v2,…,vT}中提取pi对应的动态特征集合作为当前行为片段视觉信息;行为类别特征序列E表示如下: 其中b表示行为类别总数,Prli表示行为片段的行为类别是li的概率,L表示视频帧数;从行为类别特征序列E={e1,e2,…,eL}中提取pi对应的行为类别特征集合Ei,对Ei进行平均池化操作得到行为类别特征η,使用LSTM作为解码器生成描述,在时间步t,输入解码器LSTM的视觉信息Ftpi形式化表示为: 其中Ht-1是解码器在时间步t-1的隐藏状态,n表示总的行为片段数,m表示当前行为片段编号;使用动态注意力机制来融合当前行为片段视觉信息中的I3D特征计算方式如下所示: 表示第i+m-1个I3D特征vi+m-1对应的权值,其通过如下方式计算: 表示I3D特征vk+m-1对应的相关性分数,表示I3D特征vi+m-1对应的相关性分数,计算方式如下所示: 其中,是解码器在时间步hi内的向量拼接表示,WV,Wh,WH分别表示其中每一项的参数,tanh·表示双曲正切函数,之后,利用类似LSTM门控机制的方法,将视觉特征与上下文视觉信息融合,通过门控信号gct,控制当前行为片段及其上下文视觉信息对描述生成的影响;生成的描述形式化表示为:其中和分别表示语句Si对应视频片段的开始和结束时间;表示融合表情信息的密集视频描述,表示第i个视频片段的描述,Mx表示语句数量, 表示一个语句,w表示单词,wk∈{angry,disgust,fear,happy,netural,sad,surprise};3行为识别与主体定位利用目标检测算法检测视频片段前k=16帧中的人物,定位人体区域,分析描述性语句的主语,排除不相符的人体区域,然后利用目标跟踪算法DeepSort定位各人物在视频中的位置,并利用孪生网络进行关联,减少目标跟踪丢失的情况,再利用行为识别算法得出各人物的行为类别概率分布,并根据描述性语句中的行为信息,识别出最有可能是行为主体的人物,输出该人物的位置信息;4行为主体表情识别根据步骤3得到的人物的位置信息,融合静态图像信息、时序信息以及音频信息,进行行为主体表情识别;5构建融合表情信息的密集视频描述模型根据步骤2和步骤4的输出,利用依存关系分析算法解析描述性语句,提取句子成分,利用语法规则生成新的描述性语句,得到融合表情信息的密集视频描述;6系统功能展示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人东南大学,其通讯地址为:210096 江苏省南京市玄武区四牌楼2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。