首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向舰船名标识字符的视频自动标注方法及系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子科技集团公司第二十八研究所

摘要:本发明提供了一种面向舰船名标识字符的视频自动标注方法及系统,其中所述方法包括输入长视频序列,确定长视频序列中的关键帧。将由所述的关键帧分割的视频段输入至关键帧间视频段字符区域提取网络,得到各字符区域位置。将各字符区域输入字符识别网络,得到所述的目标船名标识字符的识别结果。将字符识别结果回传至客户端进行可视化修正,并将结果作用于数据库中标注信息的更新。由此,提升了数据标注的速率与准确率,且实现了PC端的应用与部署。

主权项:1.一种面向舰船名标识字符的视频自动标注方法,其特征在于,包括如下步骤:步骤1,输入长视频序列,确定长视频序列中的关键帧,根据关键帧将长视频序列截断成两个以上的短视频;步骤2,将短视频输入视频段字符区域提取网络,得到各字符区域位置;步骤3,将各字符区域输入字符识别网络,得到目标船名标识字符的识别结果;步骤1包括:步骤1-1,将长视频序列的每一帧依次输入到经过预训练的VGG16网络获得第T帧视频的特征图,将第T帧视频的特征图在一个维度上合并得到第T帧视频的特征向量FT;步骤1-2,计算相邻两帧视频的特征向量FT和FT-1的二范数,如果二范数大于阈值,则判定相邻两帧视频差异过大,判定第T帧视频为异常帧,否则为是正常帧;步骤1-3,判断异常帧是否为关键帧:设定第T帧视频为异常帧,将第T帧视频与第T-1帧视频做差分处理,得到差分图像diffT,T-1,同时计算第T-2帧视频与第T-1帧视频的差分图像diffT-1,T-2;将差分图像diffT,T-1和diffT-1,T-2输入到经过预训练的VGG16网路中,分别获得差分图像diffT,T-1和diffT-1,T-2的特征向量FdiffT,T-1和FdiffT-1,T-2;步骤1-4,计算FdiffT,T-1和FdiffT-1,T-2的二范数,如果二范数大于阈值,则判定特征向量FdiffT,T-1和FdiffT-1,T-2差异过大,第T帧视频为关键帧,否则判定差异不大,第T帧视频被重新归类于正常帧;步骤1-5,根据关键帧检测的结果,将长视频序列截断成两个以上的短视频,每个短视频的第一帧为长视频的关键帧,最后一帧为长视频下一次关键帧的前一帧或者长视频的最后一帧;步骤2中,所述视频段字符区域提取网络包括U型卷积网络、双层ConvGRU网络和3D卷积网络;所述U型卷积网络的输入是短视频的每一帧图像,输出是对应视频帧的特征图;所述U型卷积网络前半段为下采样过程,用于提高特征维度,捕获高语义的特征信息;后半段为上采样过程,用于恢复特征图的分辨率;上采样过程与下采样过程中特征图分辨率大小相同的层进行级联;在所述U型卷积网络与双层ConvGRU网络之间,加入有尺度修正模块,尺度修正模块将U型卷积网络下采样过程中输出的三个不同尺度的特征图输入到卷积层中进行revise修正为统一大小,之后进行concat连接,输出大小相同但通道数是原来三倍的特征块;所述双层ConvGRU网络为循环神经网络,双层ConvGRU网络的输入有三个,分别为:由当前帧的尺度修正模块获得的特征块、由前一帧双层ConvGRU网络获得的cellstate胞状态系数和hiddenstate隐藏层系数,输出为当前帧经由双层ConvGRU网络计算得到的cellstate系数和hiddenstate系数和双层ConvGRU网络捕获的短视频的特征在当前帧的输出;所述3D卷积网络的输入是由双层ConvGRU网络输出的所有帧的特征在新的维度上concat连接得到的特征块,输出短视频中每一帧的候选区域的边界四点坐标值和候选区域是否是字符区域的置信度,输出格式为B×T×19×19×9,其中B指批处理大小,T指短视频长度,19×19指3D卷积网络内部将每一帧图像划分成横19纵19共381个区域;所述视频段字符区域提取网络的输出需经过筛选才能确定为字符区域,筛选方法采用NMS非极大值抑制方法,即选择置信度最大的区域,然后计算其他候选区域与置信度最大的区域的IOU交并比值,删除IOU交并比值大于指定阈值的候选区域,保留其余符合条件的候选区域作为视频段字符区域提取网络的实际输出;步骤2中,所述视频段字符区域提取网络的损失函数包括置信度损失和区域损失两部分;其中,所述置信度损失指是否由正确的帧内图像划分预测出字符区域造成的损失函数,所述区域损失指预测出的字符区域和实际的字符区域有差异而造成的损失函数,总的损失函数L用公式描述如下: 其中T、P、Q分别表示短视频的总帧数、每一帧图像纵向划分的网络数量和横向划分的网络数量;Ep,q和为判断字符区域中心是否在网络第p,q网格中的系数,如果在网络中Ep,q=1和否则Ep,q=0和Cp,q表示网络输出的第p,q网格中是否含有目标的信度值,predr和labelr指每一帧短视频内预测的字符区域的边界四点的坐标值和标注的边界四点的坐标值,格式为x1,y1,x2,y2,x3,y3,x4,y4,其中x1,x2,x3,x4分别表示四点X轴坐标,y1,y2,y3,y4分别表示四点Y轴坐标;liou为IOU交并比损失函数;λe和λO为权重系数,默认是1;步骤3中,所述的字符识别网络包含图像特征提取网络和字符序列映射网络;所述图像特征提取网络的输入是步骤1和步骤2所提取的视频的一帧的字符区域,将字符区域划为两个以上小块,对每一个小块利用IncptionV4-B卷积结构进行船名标识字符的特征提取;所述将字符区域划为两个以上小块,是指通过将卷积参数步长stride设置为与卷积核同样大小的方法,把字符区域分割成彼此不重叠的区域块,并使用位置编码记住各区域块在视频图像中的位置;在所述字符序列映射网络中,将各小块经由IncptionV4-B提取到的特征向量经扁平化处理后作为输入,并通过全连接结构Dense进行尺度统一得到向量Zii=0,1,2…,维度为m;添加额外的CLS句向量用于最终的分类,CLS是一个可学习的变量;在向量Zi中加入位置编码信息以刻画各字符区域分块的位置信息,获得综合特定位置信息的特征向量,作为Transformer-Encoder变换编码网络的输入;对Transformer-Encode变换编码网络输出的上下文向量C0进行softmax归一化指数处理,进而获得字典中各字符的概率,字典是指网络训练和预测使用的字符的集合;步骤3中,所述字符识别网络的训练效果在度量相似性时采用的是基于最短编辑距离1-NED量化识别结果与实际的差异程度。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司第二十八研究所 一种面向舰船名标识字符的视频自动标注方法及系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。