基于并行迭代模仿解码的场景文字识别系统及方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：中国科学院信息工程研究所

摘要：本发明公开了一种基于并行迭代模仿解码的场景文字识别系统及方法，涉及场景图像文本检测识别领域，综合了自回归和非自回归解码的优点，采用一种并行迭代的生成方式，针对不同长度的文本采用固定的迭代次数，并将“简单优先”策略引入到文字识别任务中，并引入一个额外的自回归解码器作为教师网络，使用自回归解码器FFN的输出作为额外的监督信号对并行解码器进行监督学习，并使用模仿学习来辅助并行解码器隐藏层的学习。本发明在多个公开的数据集上达到了最优的准确率，同时与自回归方法相比，速度上有明显的提升。

主权项：1.一种基于并行迭代模仿解码的场景文字识别系统，其特征在于，包括：骨干网络，用于提取场景图像的视觉特征，该骨干网络包括一个ResNet-50网络、一个特征金字塔网络FPN和两个Transformer模块，其中FPN用于融合多尺度的视觉特征，Transformer模块由自注意力层和前馈神经网络FFN构成，用于捕捉上下文信息；并行解码器，基于Transformer的网络结构，包括自注意力层、二维注意力层和FFN，其中自注意力层的输入是上一次迭代预测结果经过自注意力层的嵌入层后的字符嵌入，该字符嵌入融合了位置编码的信息；该自注意力层为双向结构，用于提取字符间的上下文信息；该二维注意力层用于使用自注意力层的输出和骨干网络提取的视觉特征预测一组注意力权重，并得到相应加权后的视觉特征；FFN用于对二维注意力层的输出进行非线性变化，利用一个全连接层得到预测的概率分布；该并行解码器针对不同长度的文本采用固定的迭代次数，对场景图像的视觉特征进行文字预测，并在每次迭代中首先预测出置信度最高的位置；自回归解码器，采用基于Transformer的网络结构，包括自注意力层、二维注意力层和FFN，该自注意力层使用掩膜防止自回归解码器使用当前字符以后的字符信息；该自回归解码器与并行解码器共享骨干网络，并对并行解码器进行端对端训练，训练过程中自回归解码器为并行解码器提供监督信号，并将自身的知识迁移到并行解码器中，并行解码器对自回归解码器的FFN层进行模仿学习。

全文数据：

权利要求：

百度查询：中国科学院信息工程研究所基于并行迭代模仿解码的场景文字识别系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：有机化合物及包含其的有机发光器件

下一篇：一种地质矿产资源勘查用金属检测装置及检测方法

相关技术

有机化合物及包含其的有机发光器件

一种地质矿产资源勘查用金属检测装置及检测方法

一种台式钻攻机用夹具

晶硅材料表面处理生产及检测装置

雾化器、电子雾化装置及雾化组件

一种小型开槽机

降噪构件和具有降噪构件的用于制动系统的电磁阀

一种换热器结构及冷却系统

一种物料运输重型半挂车

一种新型卷边手推车塑料车斗

一种基于统计-动力相结合的传染病预测方法及系统

一种变流柜冷却装置用顶盖结构

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于并行迭代模仿解码的场景文字识别系统及方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务