恭喜西安电子科技大学王笛获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网恭喜西安电子科技大学申请的专利一种融合多粒度视频语义信息的视频文本描述方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114943921B 。
龙图腾网通过国家知识产权局官网在2025-04-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210610447.5,技术领域涉及:G06V20/40;该发明授权一种融合多粒度视频语义信息的视频文本描述方法是由王笛;王泉;万波;雒孝通;田玉敏;罗雪梅;王义峰;吴自力;赵辉;潘蓉设计研发完成,并于2022-05-31向国家知识产权局提交的专利申请。
本一种融合多粒度视频语义信息的视频文本描述方法在说明书摘要公布了:本发明提出了一种融合多粒度视频语义信息的视频文本描述方法,主要解决现有技术中视频语义信息不全、语义信息融合不充分和当多种语义信息存在时的信息冗余的问题。其实现方案为:1建立数据集,并利用三种神经网络预训练模型分别提取其视频样本三层级的空间时序特征;2搭建融合多粒度视频语义信息的视频文本描述网络,并构建其损失函数;3对融合多粒度视频语义信息的视频文本描述网络进行训练;4将待描述视频输入到训练好的网络中生成视频的文本描述。本发明增加了提取的视频特征种类,充分融合特征,选择合适融合特征生成文本,不仅能有效表示视频信息,而且减少了信息冗余程度,可用于生成准确性高且流畅的描述视频内容文本。
本发明授权一种融合多粒度视频语义信息的视频文本描述方法在权利要求书中公布了:1.一种融合多粒度视频语义信息的视频文本描述方法,其特点在于,包括如下步骤:1建立训练集:1a选取至少1200个待描述的视频,并通过人工对每一个视频使用自然语言文本注释标注至少20条语句,每句视频的自然语句文本注释字数不超过30字,共生成至少42000对视频自然语言文本对;1b针对每对样本中的每一句文本注释,利用SpaCy自然语言工具包中所提供的词性标签工具对每句文本注释的POS词性进行标注,每对样本对组成形式为“视频-文本-词性标签”;1c统计所有出现在视频文本描述中词的种类,并从0开始编号构成词典,词典形式为:{编号:词},按照词典将上述样本对中的文本替换为词典编号,得到训练集;2利用三种神经网络预训练模型分别提取视频样本三层级的空间时序特征:2a在训练集中以“等间隔帧”采样的方式,从每个视频中提取出N帧图像作为视频的关键帧图像;2b将2a提取出的关键帧图像输入到现有已训练好的2维卷积神经网络预训练模型Inception-ResNetV2中,提取出每张图像的1536维特征,作为全局特征Va∈RN×1536,每个视频提取出全局特征维度是N*1536;2c将2a提取出的关键帧图像输入到现有已训练好的目标检测神经网络预训练模型Faster-RCNN中,提取每张图像的M个局部区域,每个区域的特征维度是2048维,作为局部特征Vo∈RN×M×2048,每个视频提取出局部区域特征维度是N*M*2048;2d将训练集中的视频输入到现有已训练好的3维卷积神经网络预训练模型I3D中,将2a提取出的关键帧所在时间位置作为N个时间点,提取出视频中每个时间点的1024维特征,作为每个视频沿时序的动作特征Vm∈RN×1024,每个视频提取出的动作特征维度是N*1024;3搭建融合多粒度视频语义信息的视频文本描述网络:3a构建由全局语义信息嵌入子模块、动作语义信息嵌入子模块和局部语义信息嵌入子模块并联组成视频语义特征嵌入模块;所述视频语义特征嵌入模块中的各子模块结构和参数设置如下:所述全局语义信息嵌入子模块,其是由一个维度为1536×1000的线性层和一个维度1024的双向长短记忆网络Bi-LSTM连接组成,用于输出全局语义特征Va′;所述动作语义信息嵌入子模块,其是由一个维度为1024×1000的线性层和一个维度为1024的双向长短记忆网络Bi-LSTM连接组成,用于输出动作语义特征Vm′;所述局部语义信息嵌入子模块,其是由一个维度为2048×1000的线性层和一个维度为1600×1000连接组成,用于输出局部语义特征Vo′;3b构建由名词融合模块、动词融合模块和逻辑连接词融合模块并联组成的视频语义信息融合模块;所述构成视频语义信息融合模块的各子模块的结构和参数设置如下:所述名词融合子模块,是由一个维度为512×512的线性层和点积注意力网络连接组成,用于输出名词语义特征Vn: 其中是上一个时间步输出的短期记忆,Vo′是局部语义特征,是Vo′的维度;所述动词融合子模块,是由一个维度为512×512的线性层和点积注意力网络连接组成,用于输出动词语义特征Vl: 其中Vm′是动作语义特征,是Vm′的维度;所述逻辑连接词融合子模块,是由维度为512×512的线性层和点积注意力网络连接组成,用于输出动词语义特征Vf: 其中是上一个时间步的长期记忆,是的维度;3c构建视频语义融合特征选择器模块;3d构建一个由长短记忆网络神经元LSTMCell和线性层组成解码器模块,用于输出短期记忆和长期记忆3e将视频语义特征嵌入模块、语义信息融合模块和解码器模块进行级联,组成多粒度视频语义信息的视频文本描述网络;4定义融合多粒度视频语义信息的视频文本描述网络损失函数:l=l1+λl2其中,l1是交叉熵损失函数,表示文本语句信息的损失,l2是KLD损失函数,表示词性信息的损失,λ是设置的权重参数;5对视频文本描述网络进行训练:5a将训练集中的视频按照2中步骤提取视频的三层级特征;5b将5a提取好的特征和训练集中的文本描述与词性标签随机选择并分批次输入到视频文本描述网络中,使用Adam优化算法和梯度下降法迭代更新当前网络中的参数,直到损失函数收敛或训练次数结束时,得到训练好的视频文本描述网络;6用户使用训练好的视频文本描述网络生成视频描述语句:6a采用与2相同的方法,分别使用三种现有的神经网络预训练模型提取用户提交视频的全局特征、局部特征和动作特征;6b将6a的提取的三种特征输入到已经训练好的视频文本描述网络中,输出该视频对应的描述语句。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西安电子科技大学,其通讯地址为:710071 陕西省西安市太白南路2号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。