买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:合肥学院
摘要:一种基于多尺度融合CRNN模型的文本识别方法,涉及文本识别技术领域,为了解决当前主流的场景文本识别模型提取特征时,为了得到更多的特征采用了较小的下采样尺度导致无法更好地提取图像中每个字符完整特征的缺陷。输入的图片通过MSF‑CRNN模型在卷积层提取特征时,采用不同的下采样尺度得到两个不同尺度的特征输出,然后在特征融合层中将不同尺度的特征进行融合得到新的特征序列,从而更加准确地提取图像的特征,接着将特征序列输入到循环层中学习上下文的信息,最终在转录层中输出预测的结果。本发明通过将不同的尺度进行融合,既扩大了提取特征时的感受野也提取了更多的文本特征,从而提高了识别文本的准确率。
主权项:1.一种基于多尺度融合CRNN模型的文本识别方法,其特征在于,输入的图片通过MSF-CRNN模型的卷积层提取特征时,采用不同的下采样尺度得到两个不同尺度的特征输出,然后在特征融合层中将不同尺度的特征进行融合得到新的特征序列,从而更加准确地提取图像的特征,接着将特征序列输入到循环层中学习上下文的信息,最终在转录层中输出预测的结果;MSF-CRNN模型在卷积层中将多尺度加入到VGG之中,构建了一个卷积神经网络MS-VGG来提取图像的特征;对于一张输入的图像,其中高为32,宽为40,通道数为1,经过MS-VGG下采样后得到两个不同尺度的特征序列,分别为ScaleA和ScaleB;ScaleA的特征序列长度为10,ScaleB的特征序列长度为5;在特征融合层中,将ScaleB经过上采样之后,得到ScaleB’,然后将ScaleA和ScaleB’进行融合,得到长度为10的特征序列;在循环层中,将该特征序列以长度为10输入到循环神经网络中学习上下文的特征,对于循环神经网络而言,每一个输入则会得到一个输入结果;在转录层中,将循环层输出的结果经过CTC损失函数得到最终的结果;MSF-CRNN模型的卷积层在识别时,模型的输入为文本行图像,在进行文本识别前,先对其进行高斯模糊增强操作预处理,以此来提高样本的多样性,提高模型的识别能力,具体为:将图像进行指定大小的缩放操作,将高度统一设置为32,宽度则在保持长宽比的情况下进行调整;同时,将彩色图像变为灰度图像;MSF-CRNN模型的卷积层中的MS-VGG通过不同的下采样得到两个不同尺度的结果;向将宽、高、通道数分别为W、H、C的图像输入使用了多尺度VGG的卷积层之中,得到两个尺度的输出,分别命名为ScaleA和ScaleB;ScaleA的尺度为[1,W4,C],ScaleB的尺度为[1,W8,C];ScaleA采用的是2×1的池化方式,ScaleB采用的是2×2的池化方式;在ScaleA中提取的是较小文字的特征,在ScaleB中提取的是较大文字的特征;ScaleA采用MaxPooling的下采样方式,获取区域内最重要的特性,而ScaleB采用AvgPooling的下采样方式,获取整个区域的平均特性;通过ScaleA和ScaleB两个特性的融合,更好地提取图像的特征,从而提高识别的准确率;MSF-CRNN模型的特征融合层中,通过将ScaleB进行上采样,得到ScaleB’,使ScaleA和ScaleB’的尺寸相同;然后再将ScaleA和ScaleB’使用add方法进行融合;设原始的特征序列为V1,经过上采样UpSample之后得到V2;设V1的尺寸为[1,ω,c],则V2的尺寸为[1,2ω,c],其中1表示高度,ω表示宽度,C表示通道数,V2由公式1得到 MSF-CRNN模型的循环层中采用BiLSTM作为循环层的双向循环神经网络,将尺度为[1,W4,C]的特征序列以长度为W4逐个输入到循环神经网络之中学习上下文语义信息,一个输入对应一个输出,则输出[n,W4]的概率矩阵;其中n表示字母的个数,每一列代表一个图像块是某个字母的概率,也就是将一张图片平分为W4个图像块,每个图像块预测一个单词;MSF-CRNN模型的转录层采用CTC损失函数将循环层的每帧预测的结果转换成标签序列的过程;定义循环层输出的结果y=y1,y2,y3,...,yT,其中T表示特征序列的长度,yi是一个长度为n的向量,n表示所有要预测的字符个数加上一个空白字符,如果只预测小写的英文字母,那么n=26+1=27;表示向量yi预测第k个字符的概率,所以定义映射函数B,其输入π=π1,π2,π3,...,πT,输出为L,即Bπ=L;映射函数B按顺序执行以下两个步骤1去掉连续重复的字符2去掉空白字符;Pπ|y表示在输入y的条件下,得到π的概率,其计算如公式2所示,表示第i个输出预测为字符πi的概率; PL|y表示在输入y的条件下,得到标签L的概率,其计算如下公式所示: 当PL|y取最大值时为π,I*=Bπ作为预测的结果,但是如果使用准确的查找方式需要消耗大量的时间,为了加快寻找的速度,采用了模糊的寻找策略,在该策略下I*≈BargmaxπPπ|y,即每个Pπ|y只输出最大的概率。
全文数据:
权利要求:
百度查询: 合肥学院 一种基于多尺度融合CRNN模型的文本识别方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。