买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:亿嘉和科技股份有限公司
摘要:本发明提供了一种基于深度学习的LED字符自动定位和识别方法,利用YOLOv4算法定位出所需识别的LED字符的全部区域,实现从全景图中定位LED表盘的数字字符区域,然后利用PSENet网络对单行或多行字符进行定位检测,最后利用CRNN网络实现LED多行字符的识别,该方法不仅能实现LED表计端到端的定位,检测到识别的流程,而且针对0‑9数字、小数点、正负号以及ABC三相不需要根据不同的类型设计不同的算法,而是将检测的字符区域输入到CRNN网络中进行识别。该方法也能解决倾斜LED表、字符模糊等问题导致识别不准的问题。
主权项:1.一种基于深度学习的LED字符自动定位和识别方法,其特征在于:首先利用YOLOv4算法定位出所需识别的LED字符的全部区域,实现从全景图中定位LED表盘的数字字符区域,然后将识别到的LED字符区域输入到字符检测网络中,利用PSENet网络对单行或多行字符进行定位检测,通过下采样,特征融合,上采样,最后得到与原图片尺寸相同的输出,获取到最终的文本连通域,定位到LED表每行字符的位置,最后利用CRNN网络实现LED多行字符的识别;具体包括以下步骤:步骤1LED仪表区域定位模块,利用YOLOv4目标检测算法进行变电站场景下的LED仪表目标检测,只定位出LED表所在的数字字符区域,具体为:步骤1.1对LED样本数据进行数据增强,利用GridMask数据增强方法,所述的GridMask数据增强方法属于信息删除的方法,具体实现为随机在图像上丢弃一块区域;一个GridMask对应4个参数,分别是x,y,r,和d,通过这4个参数确定一组特定的Mask区域,在实际训练的过程中,还对该Mask区域进行了旋转; 其中k为图像信息的保留比例,其中W和H分别为原图的宽和高,M为保留下来的像素数,其中k和上述的四个参数无直接关系,该参数间接定义了r,其中r的定义可以通过K转换得到k=1-1-r2x和y定义为一定区域的随机:δxδy=random0,d-1在检测LED仪表的任务中,GridMask的4个超参数中的r设置为0.4,d设置为96,224,在使用过程中,以P=0.6的概率对训练图像进行GridMask进行增强,此检测任务设置一开始为0,随着训练次数增加对训练图片进行GridMask增强的方式逐渐增大,最后变为P;步骤1.2、构建YOLOv4目标检测网络定位LED仪表表盘字符区域在图片中的位置,先通过FPN网络将学习到的高层语义信息传入到低层网络中,然后将高层语义信息与低层高分辨率信息相融合以提高检测的效果,再增加从低层到高层的信息传输路径,通过下采样操作来增强特征信息,最后将不同卷积层的特征信息进行融合来达到检测的效果;YOLOv4的主干提取网络CSPDarknet53中使用Mish激活函数,Mish函数是一个平滑的曲线,其函数表达式为:Mish=x×tanhln1+ex;步骤1.3、定义事先标注好的LED仪表表盘字符区域目标标注框,其区域定义为Groundtruth,将其标注好的目标图片以及其标注文件输入YOLOv4网络进行训练,利用训练好的YOLOv4目标检测网络来达到不同字符的LED仪表的字符区域定位;步骤1.4、使用DIoU-NMS,同时考虑重叠区域和两个box之间的中心点距离,达到去除重复目标框的目的,最终获取LED仪表数字字符区域;步骤2LED仪表字符检测模块,利用渐进尺度扩展网络PSENet算法作为变电站场景下的数字LED仪表字符检测模块,通过图像分割技术,像素级的检测LED字符目标区域,提升模型在LED多行字符下的检测性能,具体为:步骤2.1特征提取,将输入图片通过Resnet50残差网络进行特征提取,ResNet50具有50个conv2d层,分别提取Conv2,Conv3,Conv4以及Conv5层输出的特征图构建特征金字塔,利用自顶向下以及横向连接的形式,即提取4层特征P2,P3,P4,P5进行提取,得到4个256通道的特征层;步骤2.2特征融合,将步骤2.1得到的4个特征图进行融合,将P3,P4,P5分别通过2倍,4倍,8倍的上采样分别于特征层P2进行特征级联,最终得到一个1024维融合后的特征向量F;将高层语义特征与低层特征融合在一起,具体实现方式为:F=CP2,P3,P4,P5=P2||UP×2P3||UP×4P4||UP×8P5其中,“||”代表连接操作,分别采用2倍,4倍,8倍的方式进行上采样;步骤2.3将步骤2.2得到的融合特征F经过3×3的卷积,经过BN层及ReLU层,得到256个通道的特征图,再将此特征图输入到1×1的卷积中,得到s1,s2,...,sn个分割结果,并将分割结果按照内核规模从小到大顺序排列;步骤2.4通过PSENet算法从最小内核开始依次进行尺度的扩展,采用先到先得的方案,最终得到边界清晰的LED字符检测结果;步骤3LED仪表字符识别模块,根据步骤2获得的一行或多行的字符目标区域,利用CRNN网络进行对获取到的一行或多行字符目标区域特征进行训练,最后使用CTC算法进行具体字符的识别,获取LED仪表的识别结果,具体为:步骤3.1检测LED字符特征提取,CRNN网络中CNN部分使用VGG结构,首先将图片统一归一化到[240,50]大小,在网络的第五和第六个卷积层之后加入了批量归一化层BN层,最后通过CNN网络进行特征提取,得到2404个512通道的特征序列;步骤3.2LED字符预测部分,利用RNN网络,将步骤3.1中CNN网络提取出来的特征图输入到RNN网络中进行字符预测,使用的CNN网络一共有四个最大池化层,将最后两个池化层的窗口尺寸由2×2改为1×2;采用深层双向的RNN网络作为CRNN中的RNN网络,RNN网络是对于CNN输出的特征序列x=x1,…,xt,每一个输入xt都有一个输出yt;选择长短时记忆单元LSTM作为RNN的单元,先通过基于7层CNN提取文本图片的特征图即featuremap,并把特征图按列切分,然后将每一个channel作为512维的时间序列输入到两层各256单元的双向LSTM中进行分类;步骤3.3字符转录部分,LED字符序列经过RNN网络后,得到的预测结果需要经过转录层CTC转换为字符标签,CTC引入了空白字符ε,字符间距中的停顿均表示ε,CTC主要涉及去除重复字母和去除ε两部分;采用基于词典的CTC算法进行字符转录,在转录层中,误差差异通过前向后向算法向后传播,基于词典的预测结果最终获得的是所有标签的概率,最后选择概率最大的对应的标签值作为识别结果。
全文数据:
权利要求:
百度查询: 亿嘉和科技股份有限公司 基于深度学习的LED字符自动定位和识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。