首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种汽车视频高质封面识别系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:海南车智易通信息技术有限公司

摘要:本发明属于封面识别系统技术领域,且公开了一种汽车视频高质封面识别系统,具体步骤如下:步骤一:数据集准备收集视频封面数据集D=[I1,I2,…,In]。通过检测三元素“人”、“车”和“文字”,筛选出元素丰富的封面,同时结合图像整体构图以及元素位置过滤低质的三元素,协助推荐推送高质量的视频内容,优化汽车展示页,提升用户的体验同时,提高客户端的留存率,在汽车网站新上传一批视频时,只需将视频封面上传到系统的实时接口,通过检测三元素,并过滤掉得分较低的元素框,如果存在三元素框,则对文字框进行低质过滤,去除掉背景或无关主题的文字,如果文字框集合非空,则过滤掉低质的车,根据车集合是否为空,选择是否进行低质人的过滤。

主权项:1.一种汽车视频高质封面识别系统,其特征在于:具体步骤如下:步骤一:数据集准备收集视频封面数据集D=[I1,I2,…,In],其中Ii代表某个视频的封面图,收集公开的文字检测数据集T=[T1,T2,…,Tp],其中每张图人工标注了文字框的位置信息,记为boxT=[boxT1,boxT2,…,boxTp],其中boxTi定义了框的左上角和右下角的坐标点;步骤二:数据集D处理将数据集D送入公开数据集coco训练的yolo-v5模型进行物体检测和识别,以图像I1为例,得到包含80类目标的检测框、得分以及类别信息,分别记为box=[b1,b2,…,bm]、score=[s1,s2,…,sm]、class=[c1,c2,…,cm],过滤其中得分si0.5并且类别ci∈[人、车]的检测框,最终得到新的目标检测框和类别信息记为boxN=[b1,b2,…,bt]、class=[c1,c2,…,ct],以此类推,对数据集D的所有图像重复上述过程,可以得到所有图像的预标注的元素“人”、“车”Dres=[boxN1,class1,boxN2,class2,…boxNn,classn],其中boxNi,classi代表Ii对应的预处理结果,这个结果可能为空也可能不为空;步骤三:文字数据集T处理同理,对数据集T的所有图像执行步骤二中的步骤,得到数据集T预标注的元素“人”、“车”的框和类别信息,记为Tres=[boxN1,class1,boxN2,class2,…boxNp,classp],其中boxNi,classi代表图像Ti预处理结果,这个结果可能为空也可能不为空;步骤四:训练初版文字检测模型将公开的文字检测数据集T及其对应的boxT分为训练集Tr和验证集Tv,送入神经网络yolo-v5进行文字检测模型训练,得到初版的文字检测模型Mt;步骤五:预标注数据集D的“文字”框将数据集D=[I1,I2,…,In]送入步骤四中的模型Mt进行文字检测,以I1为例,得到图像I1里面文字检测框的位置和得分,记为bt=[bt1,bt2,…,btq]、score=[st1,st2,…,stq],挑选其中得分sti0.5的文字框,得到最终图像I1对应的文字检测位置记为boxT=[b1,b2,…,bo];依次类推,对数据集D所有图像执行上述过程,得到数据集D对应的文字框位置,记为:Dt-res=[boxT1,class,boxN2,class,…boxTn,class]其中class的类别为“文字”;步骤六:预标注数据集合并将数据集D在步骤二中的结果Dres和步骤五中的结果Dt-res进行合并,可以得到数据集D每张图对应的预标注的“人”、“车”和“文字”三元素出现的位置框以及框对应的类别,记为:Dgt=[boxF1,cls1,boxF2,cls2,…boxFn,clsn]其中boxFi对应一系列标注框,clsi为每个框对应的类别信息;同理,将数据集T在步骤三中预标注的“人”和“车”的结果Tres和步骤一中的标注的“文字”框结果boxT进行合并,得到数据集T预标注的三元素“人”、“车”和“文字”的位置框及其对应的类别信息,记为:Tgt=[boxF1,cls1,boxF2,cls2,…boxFp,clsp]将数据集D和T进行合并,得到最终的数据集F=[I1,I2,…,Im],其中m=p+n,及其对应的三元素位置框和类别如说明书附图2所示,记为:Fgt=[boxF1,cls1,boxF2,cls2,…boxFm,clsm]步骤七:三元素检测模型训练将数据集F按照8:2的比例分为训练集Ftr和验证集Ftv;训练阶段,以yolo-v5框架为基础模型,引入数据增强算法对数据进行处理,不断迭代,直到得到最优模型MF;测试阶段,将图像送入MF,输出各个元素的框和得分;步骤八:三元素检测将待识别图像I送入步骤七中的模型MF,得到三元素的检测框、得分和类别,记Ires=[b1,s1,c1,b2,s2,c2,…bz,sz,cz],其bi代表检测框,si为对应框的得分,ci为类别;①保留si0.5的框,得到新的结果Ires_n=[b1,s1,c1,b2,s2,c2,…bt,st,ct];②类别合并,将c1,c2,…,ct进行类别去重整理,得到类别集合C,如果“人”、“车”和“文字”都在集合C内,则图像I包含三元素,进入下一步;否则,图像I不满足三元素条件,赋为低质图像,结束;步骤九:低质“文字”过滤在封面图像中,存在三类低质文字,第一是水印文字;第二是车身文字、衣服文字等;第三是过小的文字,这类都不是编辑后续添加的视频标题相关文字低质文字过滤流程图如说明书附图3所示,将步骤八中的Ires_n里面按三元素类别进行框的拆分,其中“文字”集合记为sumT=[b1,b2…,bk],“人”集合记为sumP=[b1,b2…,bj],“车”集合记为sumC=[b1,b2…,be],假设步骤八中待识别图像I的长宽分别为h和w;①水印文字过滤:以sumT中第一个框b1=[xmin,ymin,xmax,ymax]为例,其中xmax,ymax代表右下角的点,xmin,ymin代表左上角的点,如果yminh0.05并且ymaxh0.1,则代表此框属于水印位置的文字框,需从sumT中移除掉;否则保留,不做处理,以此类推,对sumT中所有框执行上述步骤,得到过滤后的文字框集合sumT1=[b1,b2…,bk1],此处过滤水印以右上方处为例,实际可依具体应用场景修改参数,过滤其他位置水印;②车身文字、衣服文字等过滤,此类文字特点就是文字框完全在另外两元素框里面,将sumP和sumC的框进行合并,得到sumPC=[b1,b2…,be+j],以sumT1的第i框为例bi=[xT-min,yT-min,xT-max,yT-max],遍历sumPC里面所有的框,如果sumPC里面存着一个框记为br=[xPC-min,yPC-min,xPC-max,yPC-max],满足xPC-minxT-min且yPC-minyT-min且xPC-maxxT-max且yPC-maxxT-max这四个条件,则bi文字框属于低质的文字框,过滤掉;否则,保留下来,以此类推,对sumT1里面的所有框进行遍历,得到sumT2=[b1,b2…,bk2];③过小文字过滤,以sumT2中的bi=[xmin,ymin,xmax,ymax]为例,计算框的面积area=xmax-xmin×ymax-ymin,如果h×wareaθ,则bi属于低质的文字框,过滤掉;否则,保留下来,依次类推,对sumT2里面的所有框进行遍历,得到sumT3=[b1,b2…,bk3],如果sumT3为空,则图像I为低质图像,不进行后续步骤;否则,进入下一步骤进行处理;步骤十:低质“车”过滤以图像I的“车”检测框集合sumC=[b1,b2…,be]为例:①当e=1,则说明满足单车、文字的两元素定义,进入下一步;②当e1,则存在多车,处理逻辑:计算sumC=[b1,b2…,be]各个框的面积,记为areaC=[area1,area2…,areae],计算areaC的最大值记为areamax,对应的框假设为bmax=[xcmin,ycmin,xcmax,ycmax],如果且且θ1areamaxθ2,即整张图像中心点位于车内且最大框占比不能过大或过小,此处θ1和θ2可根据具体需求更改,经验阈值为θ1=h×w5,θ2=4×h×w5,满足上述条件进入下一步;否则图像I为低质图像,不进行后续处理;步骤十一:低质“人”过滤分别收集高质量的人、车和文字数据集、低质量的数据集,低质量比如构图无美感、人像占比太低、人为背景等,高质量的图像分两类收集:人和车整体、人坐在车里面,其中这两类都包含文字元素,最终得到包含三类的训练集和测试集;训练阶段,以resnet网络为基础,引入镜像、上下翻转等数据增强算法处理,用交叉熵损失函数更新模型梯度,不断迭代,直到得到最优模型Mpcls;测试阶段,将图像I送入Mpcls,如果I属于低质的类别,则不满条件,图像舍弃;否则输出图像I为高质量图像。

全文数据:

权利要求:

百度查询: 海南车智易通信息技术有限公司 一种汽车视频高质封面识别系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。