首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于HRNet编码与双分支解码的场景文本识别方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:杭州师范大学

摘要:本发明公开一种基于HRNet编码与双分支解码的场景文本识别方法。传统的深度学习方法进行场景文本识别在遇到文本扭曲、图像模糊和低分辨率问题时,识别准确率有所下降。本发明将单张场景原始文本图像经过随机高斯模糊后,获得低分辨率图像;搭建基于HRNet编码与双分支解码的场景文本识别模型,所述基于HRNet编码与双分支解码的场景文本识别模型包括修正网络TPS、编码模块、超分分支和识别分支。本发明方法通过引入HRNet编码和双分支解码,提高了模型对于模糊和低分辨率的图像的识别准确率,且在测试时舍弃超分分支的方式降低了模型参数量及时间消耗。

主权项:1.基于HRNet编码与双分支解码的场景文本识别方法,其特征在于该方法包括以下步骤:步骤一、构建训练集将单张场景原始文本图像经过随机高斯模糊后,获得低分辨率图像,并进行人工标注真实文本标签,所述真实文本标签为图像中的文本;同时将对应原始文本图像作为高分辨率图像,并作为真实图像标签;步骤二、模型建立和训练2-1搭建基于HRNet编码与双分支解码的场景文本识别模型所述基于HRNet编码与双分支解码的场景文本识别模型包括修正网络TPS、编码模块、超分分支和识别分支;所述编码模块用于对低分辨图像进行特征提取获得视觉特征,输入为修正网络TPS的输出图像,输出为多种不同分辨率特征图;其包括HRNet网络、监督注意力模块SAM;所述HRNet网络以高分辨率子网作为第一阶段,逐个添加从高到低的多分辨率子网,以形成更多阶段,并行连接高低分辨率子网,并在整个过程中反复交换并行多分辨率子网中的信息,以进行重复的多特征融合,最终获得多种不同分辨率特征图;所述监督注意力模块通过一系列卷积操作将修正网络TPS的输出图像与HRNet网络输出的最高分辨率特征图进行相加操作;所述超分分支用于编码模块输出的最高分辨率特征图,通过转置卷积上采样,生成超分辨率图像;所述识别分支用于对编码模块输出的所有不同分辨率特征图,通过独立转置卷积层将较低分辨率特征图进行尺寸扩张,使得多尺度特征图在通道维度上进行拼接融合,并运用解码器对拼接融合后的特征图进行解码,获得文本识别结果;2-2模型训练利用步骤一训练集对上述基于HRNet编码与双分支解码的场景文本识别模型进行训练;步骤三:使用任意真实场景文本图像数据集对训练好的基于HRNet编码与双分支解码的场景文本识别模型进行测试,并在测试时舍弃超分分支,获得文本识别结果。

全文数据:

权利要求:

百度查询: 杭州师范大学 基于HRNet编码与双分支解码的场景文本识别方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。