首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于并行迭代模仿解码的场景文字识别系统及方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国科学院信息工程研究所

摘要:本发明公开了一种基于并行迭代模仿解码的场景文字识别系统及方法,涉及场景图像文本检测识别领域,综合了自回归和非自回归解码的优点,采用一种并行迭代的生成方式,针对不同长度的文本采用固定的迭代次数,并将“简单优先”策略引入到文字识别任务中,并引入一个额外的自回归解码器作为教师网络,使用自回归解码器FFN的输出作为额外的监督信号对并行解码器进行监督学习,并使用模仿学习来辅助并行解码器隐藏层的学习。本发明在多个公开的数据集上达到了最优的准确率,同时与自回归方法相比,速度上有明显的提升。

主权项:1.一种基于并行迭代模仿解码的场景文字识别系统,其特征在于,包括:骨干网络,用于提取场景图像的视觉特征,该骨干网络包括一个ResNet-50网络、一个特征金字塔网络FPN和两个Transformer模块,其中FPN用于融合多尺度的视觉特征,Transformer模块由自注意力层和前馈神经网络FFN构成,用于捕捉上下文信息;并行解码器,基于Transformer的网络结构,包括自注意力层、二维注意力层和FFN,其中自注意力层的输入是上一次迭代预测结果经过自注意力层的嵌入层后的字符嵌入,该字符嵌入融合了位置编码的信息;该自注意力层为双向结构,用于提取字符间的上下文信息;该二维注意力层用于使用自注意力层的输出和骨干网络提取的视觉特征预测一组注意力权重,并得到相应加权后的视觉特征;FFN用于对二维注意力层的输出进行非线性变化,利用一个全连接层得到预测的概率分布;该并行解码器针对不同长度的文本采用固定的迭代次数,对场景图像的视觉特征进行文字预测,并在每次迭代中首先预测出置信度最高的位置;自回归解码器,采用基于Transformer的网络结构,包括自注意力层、二维注意力层和FFN,该自注意力层使用掩膜防止自回归解码器使用当前字符以后的字符信息;该自回归解码器与并行解码器共享骨干网络,并对并行解码器进行端对端训练,训练过程中自回归解码器为并行解码器提供监督信号,并将自身的知识迁移到并行解码器中,并行解码器对自回归解码器的FFN层进行模仿学习。

全文数据:

权利要求:

百度查询: 中国科学院信息工程研究所 基于并行迭代模仿解码的场景文字识别系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。