首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

电子装置、票据识别方法及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本发明涉及数据分析识别,提出了一种票据识别方法,该方法包括:对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。能够准确识别出票据图像的类型,节省人力成本,提高工作效率。本发明还提出一种电子装置及存储介质。

主权项:1.一种电子装置,其特征在于,所述电子装置包括存储器、及与所述存储器连接的处理器,所述处理器用于执行所述存储器上存储的票据识别程序,所述票据识别程序被所述处理器执行时实现如下步骤:A1、对待识别的票据图片执行去噪处理,对处理后的待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;A2、根据各个表单框线和各个表单框线之间的位置关系,识别出所述票据图片中的表格,对所述表格的所有交点进行位置标记,并根据预先确定的排序规则将所述位置标记进行排序,生成位置序列,分别计算各个交点与所述位置序列中的预定义的位置点之间的像素距离,将计算得到的各个像素距离进行归一化处理,得到所述表格的特征向量;A3、计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据;A4、读入所述待识别的票据图片对应的类型票据,生成不同尺寸和位置的子窗口,根据预先训练完成的分类器对所有的子窗口进行检测,得到初始检测结果,在对所述初始检测结果进行灰度对称性操作和删除误判类型的子窗口之后,对所述初始检测结果内的子窗口进行分类合并处理,得到最终分类结果并作为所述待识别的票据图片的子类型,所述预先训练完成的分类器的训练过程包括:设计该票据类型的三种结构型Haar矩形特征,结合水平边缘、垂直边缘、水平中心、垂直中心和对角特征在内的五种基本的Haar特征组成新增Haar特征库,利用积分图加速算法提取所有样本特征值,采用Adaboost算法训练分类器,提取自适应分类阈值,得到最佳弱分类器,多次迭代训练多个弱分类器,加权平均成强分类器,训练多个强分类器,组成级联分类器,所述级联分类器为训练完成的分类器,其中,所述设计该票据类型的三种结构型Haar矩形特征,包括该票据类型包含的行数和类型的Haar特征,其中,所述Haar每一行包含的列数与所述列数中包含有印刷字段的Haar特征,每一列包含的行数与所述行数中包含有印刷字段的Haar特征。

全文数据:电子装置、票据识别方法及存储介质技术领域本发明涉及票据识别领域,尤其涉及一种电子装置、票据识别方法及存储介质。背景技术如今随着金融行业的快速发展,金融业务涉及到的图片数量以及种类也越来越多。而对于涉及到的票据图片,通常需要在一定的时间段内进行统计并作为催款、报销等业务的依据,这就需要对票据图片进行分类别管理,以方便相关业务的顺利进行。然而,目前对于票据图片的分类仍需借助大量的人力进行,分类处理的效率低下,且容易出现错误。因此,如何提出一种高效、准确地自动识别出票据图片的类型,成为亟待解决的问题。发明内容有鉴于此,本发明提出一种电子装置、票据识别方法及存储介质,能够准确识别出票据图像的类型,节省人力成本,提高工作效率。首先,为实现上述目的,本发明提出一种电子装置,所述电子装置包括存储器、及与所述存储器连接的处理器,所述处理器用于执行所述存储器上存储的票据识别程序,所述票据识别程序被所述处理器执行时实现如下步骤:A1、对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;A2、根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;A3、计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。优选地,所述步骤A2包括:根据各个表单框线和各个表单框线之间的位置关系,提取表单框线的各个交叉点,获取各个交叉点的信息,以及,获取各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;根据各个交叉点的信息、水平方向表单框线的信息和垂直方向表单框线的信息,识别出所述票据图片中的表格;对识别出的表格的所有交点进行位置标记,并根据预先确定的排序规则将所述位置标记进行排序,生成位置序列;分别计算各个交点与所述位置序列中的预定义的位置点之间的像素距离,将计算得到的各个像素距离进行归一化处理,得到所述表格的特征向量。优选地,所述票据识别程序被所述处理器执行时还实现如下步骤:若确定出待识别的票据图片对应的票据类型包含多个子类型,则根据预先训练完成的分类器对该票据类型进行识别,以识别出待识别的票据图片对应的子类型。优选地,所述预先训练完成的分类器的训练过程包括:构造该票据类型的结构型Haar特征并与基本Haar特征组成新增特征库,并利用该特征库提取样本特征值;采用Adaboost算法训练分类器,提取自适应分类阈值,得到最佳弱分类器;多次迭代训练多个弱分类器,加权平均成强分类器;训练多个强分类器,组成级联分类器,所述级联分类器为训练完成的分类器。优选地,所述构造该票据类型的结构型Haar特征并与基本Haar特征组成新增特征库,并利用该特征库提取样本特征值的步骤,包括:设计该票据类型的三种结构型Haar矩形特征,包括该票据类型包含的行数和类型的Haar特征,其中,所述Haar每一行包含的列数与所述列数中包含有印刷字段的Haar特征,每一列包含的行数与所述行数中包含有印刷字段的Haar特征;结合水平边缘、垂直边缘、水平中心、垂直中心和对角特征在内的五种基本的Haar特征组成新增Haar特征库;利用积分图加速算法提取所有样本特征值。此外,为了实现上述目的,本发明还提出一种票据识别方法,所述方法包括如下步骤:S1、对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;S2、根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;S3、计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。优选地,所述步骤S2包括:根据各个表单框线和各个表单框线之间的位置关系,提取表单框线的各个交叉点,获取各个交叉点的信息,以及,获取各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;根据各个交叉点的信息、水平方向表单框线的信息和垂直方向表单框线的信息,识别出所述票据图片中的表格;对识别出的表格的所有交点进行位置标记,并根据预先确定的排序规则将所述位置标记进行排序,生成位置序列;分别计算各个交点与所述位置序列中的预定义的位置点之间的像素距离,将计算得到的各个像素距离进行归一化处理,得到所述表格的特征向量。优选地,所述方法还包括如下步骤:若确定出待识别的票据图片对应的票据类型包含多个子类型,则根据预先训练完成的分类器对该票据类型进行识别,以识别出待识别的票据图片对应的子类型。优选地,所述预先训练完成的分类器的训练过程包括:构造该票据类型的结构型Haar特征并与基本Haar特征组成新增特征库,并利用该特征库提取样本特征值;采用Adaboost算法训练分类器,提取自适应分类阈值,得到最佳弱分类器;多次迭代训练多个弱分类器,加权平均成强分类器;训练多个强分类器,组成级联分类器,所述级联分类器为训练完成的分类器。此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有票据识别程序,所述票据识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如上所述的票据识别方法的步骤。本发明所提出的电子装置、票据识别方法及存储介质,通过对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。能够准确识别出票据图像的类型,节省人力成本,提高工作效率。附图说明图1是本发明提出的电子装置一可选的硬件架构的示意图;图2是本发明电子装置一实施例中票据识别程序的程序模块示意图;图3是本发明票据识别方法较佳实施例的实施流程图。本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。参阅图1所示,是本发明提出的电子装置一可选的硬件架构示意图。本实施例中,电子装置10可包括,但不仅限于,可通过通信总线14相互通信连接存储器11、处理器12、网络接口13。需要指出的是,图1仅示出了具有组件11-14的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,存储器11至少包括一种类型的计算机可读存储介质,计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器例如,SD或DX存储器等、随机访问存储器RAM、静态随机访问存储器SRAM、只读存储器ROM、电可擦除可编程只读存储器EEPROM、可编程只读存储器PROM、磁性存储器、磁盘、光盘等。在一些实施例中,存储器11可以是电子装置10的内部存储单元,例如电子装置10的硬盘或内存。在另一些实施例中,存储器11也可以是电子装置10的外包存储设备,例如电子装置10上配备的插接式硬盘,智能存储卡SmartMediaCard,SMC,安全数字SecureDigital,SD卡,闪存卡FlashCard等。当然,存储器11还可以既包括电子装置10的内部存储单元也包括其外包存储设备。本实施例中,存储器11通常用于存储安装于电子装置10的操作系统和各类应用软件,例如票据识别程序等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器12在一些实施例中可以是中央处理器CentralProcessingUnit,CPU、控制器、微控制器、微处理器、或其他数据处理芯片。处理器12通常用于控制电子装置10的总体操作。本实施例中,处理器12用于运行存储器11中存储的程序代码或者处理数据,例如运行的票据识别程序等。网络接口13可包括无线网络接口或有线网络接口,网络接口13通常用于在电子装置10与其他电子设备之间建立通信连接。通信总线14用于实现组件11-13之间的通信连接。图1仅示出了具有组件11-14以及票据识别程序的电子装置10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。可选地,电子装置10还可以包括用户接口图1中未示出,用户接口可以包括显示器、输入单元比如键盘,其中,用户接口还可以包括标准的有线接口、无线接口等。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED触摸器等。进一步地,显示器也可称为显示屏或显示单元,用于显示在电子装置10中处理信息以及用于显示可视化的用户界面。可选地,在一些实施例中,电子装置10还可以包括音频单元音频单元图1中未示出,音频单元可以在电子装置10处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将接收的或者存储的音频数据转换为音频信号;进一步地,电子装置10还可以包括音频输出单元,音频输出单元将音频单元转换的音频信号输出,而且音频输出单元还可以提供与电子装置10执行的特定功能相关的音频输出例如呼叫信号接收声音、消息接收声音等等,音频输出单元可以包括扬声器、蜂鸣器等等。可选地,在一些实施例中,电子装置10还可以包括警报单元图中未示出,警报单元可以提供输出已将事件的发生通知给电子装置10。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或者视频输出之外,警报单元可以以不同的方式提供输出以通知事件的发生。例如,警报单元可以以震动的形式提供输出,当接收到呼叫、消息或一些其他可以使电子装置10进入通信模式时,警报单元可以提供触觉输出即,振动以将其通知给用户。在一实施例中,存储器11中存储的票据识别程序被处理器12执行时,实现如下操作:A1,对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;具体地,在所述对待识别的票据图片中的表单进行直线检测的步骤之前,还包括对所述票据图片进行处理;具体地,处理方式包括对所述票据图片进行去燥处理,例如进行5*5窗口的高斯模糊去噪处理,对所述票据图片进行图片矫正处理,例如对票据图片进行边缘检测,并在存在倾斜的情况下进行适度旋转矫正,对于存在拉伸的情况进行相应的映射校正等,以及对所述票据图片进行截取票据处理;进一步地,若检测到所述票据图片包含有第一预设尺寸和第二预设尺寸所述第一预设尺寸为常用的票据尺寸,所述第二预设尺寸为常用的票据副联的尺寸的封闭的表格,则仅选取第二预设尺寸的表格作为待识别的票据。需要说明的是,所述票据图片通常包括银行汇票、承兑汇票、银行本票、结算业务单以及进账单等票据图片。进一步地,对于票据图片中的表单来说,其线段多为规整的直线,对其进行直线检测可获得表单的各个表单框线和各个表单框线之间的位置关系。其中,表单框线表示表格中的每一条线段。A2,根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;具体地,可以根据各个表单框线和各个表单框线之间的位置关系,提取表单框线的各个交叉点,获取各个交叉点的信息,以及,获取各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;根据各个交叉点的信息、水平方向表单框线的信息和垂直方向表单框线的信息,识别出所述票据图片中的表格。进一步地,对识别出的表格的所有交点进行位置标记,并根据预先确定的排序规则将所述位置标记进行排序,生成位置序列;具体地,所述预先确定的排序规则为将位置标记按照从上到下,从左到右的顺序进行排序,生成位置序列;分别计算各个交点与所述位置序列中的预定义的位置点例如所述位置序列中的第一位置点之间的像素距离,将计算得到的各个像素距离进行归一化处理,以得到所述表格的特征向量。A3,计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。进一步地,若所述各类型票据表格的标准向量与所述表格的特征向量之间的相似度均大于预设的相似度阈值,则确定待识别的票据图片均不属于预先确定的各类型票据。进一步地,若确定出待识别的票据图片对应的票据类型包含多个子类型,则根据预先训练完成的分类器对该票据类型进行识别,以识别出待识别的票据图片对应的子类型。具体地,所述预先训练完成的分类器的训练过程包括:构造该票据类型的结构型Haar特征并与基本Haar特征组成新增特征库,并利用该特征库提取样本特征值;采用Adaboost算法训练分类器,提取自适应分类阈值,得到最佳弱分类器;多次迭代训练多个弱分类器,加权平均成强分类器;训练多个强分类器,组成级联分类器;所述级联分类器为训练完成的分类器。具体地,所述构造该票据类型的结构型Haar特征的步骤包括:设计该票据类型的三种结构型Haar矩形特征,包括该票据类型包含的行数和类型的Haar特征,其中,Haar每一行包含的列数与所述列数中包含有印刷字段的Haar特征,每一列包含的行数与所述行数中包含有印刷字段的Haar特征;进一步地,结合水平边缘、垂直边缘、水平中心、垂直中心和对角特征在内的五种基本的Haar特征组成新增Haar特征库;利用积分图加速算法提取所有样本特征值。进一步地,所述采用Adaboost算法训练分类器,提取自适应分类阈值,得到最佳弱分类器的步骤中对于第i个Haar特征在训练样本集上的弱分类器hi其中,x代表样本,feaix为第i个类Haar特征feai在样本x上的取值,pi是分类方向符号,pi∈[-1,+1],θi为分类器hi的阈值;hi的训练过程如下:记所有训练样本的该特征值构成的向量为Vec,将Vec中的元素由小到大排序得到新的向量SortVec;遍历上述排序后的特征值,针对每一个特征值SortVec[j]计算以下四个值:1全部该票据类型样本的权重之和T+;2所有非该票据类型样本的权重之和T-;3在此特征值SortVec[j]对应样本之前的所有该票据类型样本的权重之和S+;4在此特征值SortVec[j]对应样本之前的所有非该票据类型样本的权重之和S-;根据下式计算排序好的特征值下的分类误差:ej=minS++T--S-,S-+T+-S+遍历所有特征,选取分类误差最小的特征训练得到的弱分类器作为最优弱分类器;以上得到的分类误差最小的位置计为η,获取特征值小于等于SortVec[η]时类别输出为Label的先验概率为P1Lable|SortVec[k]≤SortVec[η]=∑yk=Lablewk∑k≤ηwk特征值大于等于SortVec[η]时类别输出为为-Label的先验概率为:P2-Lable|SortVec[k]≥SortVec[η+1]=∑yk=-Lablewk∑k≤η+1wk其中,Lable∈[-1,+1],wk为下标为k的训练样本的权值,yk为下标为k的训练样本的真实标签;根据样本的分布规律,设置分类阈值如下:采用上述方法,读入待识别的票据图片对应的票据类型;产生不同尺寸和位置的子窗口,假设得到的候选子窗口数量为num;导入级联分类器的参数;对于每一子窗口,将其归一化为24×24,利用训练过程选择的Haar特征来计算相应特征值;使用票据类型的分类器对得到的每一子窗口进行分类,如果为对应的子类型,则保存该子窗口的位置信息,得到初始检测结果;对初始检测结果进行灰度对称性操作,剔除误判窗口;对不同尺寸下检测挑选的子窗口进行分类合并处理,得到最终分类结果。由上述事实施例可知,本发明提出的电子装置,通过对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。能够准确识别出票据图像的类型,节省人力成本,提高工作效率。此外,本发明的票据识别程序依据其各部分所实现的功能不同,可用具有相同功能的程序模块进行描述。请参阅图2所示,是本发明电子装置一实施例中票据识别程序的程序模块示意图。本实施例中,票据识别程序依据其各部分所实现的功能的不同,可以被分割成获取模块201、计算模块202以及第二计算模块203。由上面的描述可知,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述票据识别程序在电子装置10中的执行过程。所述模块201-203所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:获取模块201用于对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;第一计算模块202用于根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;第二计算模块203用于计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。此外,本发明还提出一种票据识别方法,请参阅图3所示,所述票据识别方法包括如下步骤:S301、对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;具体地,在所述对待识别的票据图片中的表单进行直线检测的步骤之前,还包括对所述票据图片进行处理;具体地,处理方式包括对所述票据图片进行去燥处理,例如进行5*5窗口的高斯模糊去噪处理,对所述票据图片进行图片矫正处理,例如对票据图片进行边缘检测,并在存在倾斜的情况下进行适度旋转矫正,对于存在拉伸的情况进行相应的映射校正等,以及对所述票据图片进行截取票据处理;进一步地,若检测到所述票据图片包含有第一预设尺寸和第二预设尺寸所述第一预设尺寸为常用的票据尺寸,所述第二预设尺寸为常用的票据副联的尺寸的封闭的表格,则仅选取第二预设尺寸的表格作为待识别的票据。需要说明的是,所述票据图片通常包括银行汇票、承兑汇票、银行本票、结算业务单以及进账单等票据图片。进一步地,对于票据图片中的表单来说,其线段多为规整的直线,对其进行直线检测可获得表单的各个表单框线和各个表单框线之间的位置关系。其中,表单框线表示表格中的每一条线段。S302,根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;具体地,可以根据各个表单框线和各个表单框线之间的位置关系,提取表单框线的各个交叉点,获取各个交叉点的信息,以及,获取各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;根据各个交叉点的信息、水平方向表单框线的信息和垂直方向表单框线的信息,识别出所述票据图片中的表格。进一步地,对识别出的表格的所有交点进行位置标记,并根据预先确定的排序规则将所述位置标记进行排序,生成位置序列;具体地,所述预先确定的排序规则为将位置标记按照从上到下,从左到右的顺序进行排序,生成位置序列;分别计算各个交点与所述位置序列中的预定义的位置点例如所述位置序列中的第一位置点之间的像素距离,将计算得到的各个像素距离进行归一化处理,以得到所述表格的特征向量。S303,计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。进一步地,若所述各类型票据表格的标准向量与所述表格的特征向量之间的相似度均大于预设的相似度阈值,则确定待识别的票据图片均不属于预先确定的各类型票据。进一步地,若确定出待识别的票据图片对应的票据类型包含多个子类型,则根据预先训练完成的分类器对该票据类型进行识别,以识别出待识别的票据图片对应的子类型。具体地,所述预先训练完成的分类器的训练过程包括:构造该票据类型的结构型Haar特征并与基本Haar特征组成新增特征库,并利用该特征库提取样本特征值;采用Adaboost算法训练分类器,提取自适应分类阈值,得到最佳弱分类器;多次迭代训练多个弱分类器,加权平均成强分类器;训练多个强分类器,组成级联分类器;所述级联分类器为训练完成的分类器。具体地,所述构造该票据类型的结构型Haar特征的步骤包括:设计该票据类型的三种结构型Haar矩形特征,包括该票据类型包含的行数和类型的Haar特征,其中,Haar每一行包含的列数与所述列数中包含有印刷字段的Haar特征,每一列包含的行数与所述行数中包含有印刷字段的Haar特征;进一步地,结合水平边缘、垂直边缘、水平中心、垂直中心和对角特征在内的五种基本的Haar特征组成新增Haar特征库;利用积分图加速算法提取所有样本特征值。进一步地,所述采用Adaboost算法训练分类器,提取自适应分类阈值,得到最佳弱分类器的步骤中对于第i个Haar特征在训练样本集上的弱分类器hi其中,x代表样本,feaix为第i个类Haar特征feai在样本x上的取值,pi是分类方向符号,pi∈[-1,+1],θi为分类器hi的阈值;hi的训练过程如下:记所有训练样本的该特征值构成的向量为Vec,将Vec中的元素由小到大排序得到新的向量SortVec;遍历上述排序后的特征值,针对每一个特征值SortVec[j]计算以下四个值:1全部该票据类型样本的权重之和T+;2所有非该票据类型样本的权重之和T-;3在此特征值SortVec[j]对应样本之前的所有该票据类型样本的权重之和S+;4在此特征值SortVec[j]对应样本之前的所有非该票据类型样本的权重之和S-;根据下式计算排序好的特征值下的分类误差:ej=minS++T--S-,S-+T+-S+遍历所有特征,选取分类误差最小的特征训练得到的弱分类器作为最优弱分类器;以上得到的分类误差最小的位置计为η,获取特征值小于等于SortVec[η]时类别输出为Label的先验概率为P1Lable|SortVec[k]≤SortVec[η]=∑yk=Lablewk∑k≤ηwk特征值大于等于SortVec[η]时类别输出为为-Label的先验概率为:P2-Lable|SortVec[k]≥SortVec[η+1]=∑yk=-Lablewk∑k≤η+1wk其中,Lable∈[-1,+1],wk为下标为k的训练样本的权值,yk为下标为k的训练样本的真实标签;根据样本的分布规律,设置分类阈值如下:采用上述方法,读入待识别的票据图片对应的票据类型;产生不同尺寸和位置的子窗口,假设得到的候选子窗口数量为num;导入级联分类器的参数;对于每一子窗口,将其归一化为24×24,利用训练过程选择的Haar特征来计算相应特征值;使用票据类型的分类器对得到的每一子窗口进行分类,如果为对应的子类型,则保存该子窗口的位置信息,得到初始检测结果;对初始检测结果进行灰度对称性操作,剔除误判窗口;对不同尺寸下检测挑选的子窗口进行分类合并处理,得到最终分类结果。由上述事实施例可知,本发明提出的票据识别方法,通过对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。能够准确识别出票据图像的类型,节省人力成本,提高工作效率。此外,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有票据识别程序,所述票据识别程序被处理器执行时实现如下操作:对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。本发明计算机可读存储介质的具体实施过程,与上述电子装置以及票据识别方法的具体实施过程类似,在此不再赘述。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质如ROMRAM、磁碟、光盘中,包括若干指令用以使得一台终端设备可以是手机,计算机,服务器,空调器,或者网络设备等执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

权利要求:1.一种电子装置,其特征在于,所述电子装置包括存储器、及与所述存储器连接的处理器,所述处理器用于执行所述存储器上存储的票据识别程序,所述票据识别程序被所述处理器执行时实现如下步骤:A1、对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;A2、根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;A3、计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。2.如权利要求1所述的电子装置,其特征在于,所述步骤A2包括:根据各个表单框线和各个表单框线之间的位置关系,提取表单框线的各个交叉点,获取各个交叉点的信息,以及,获取各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;根据各个交叉点的信息、水平方向表单框线的信息和垂直方向表单框线的信息,识别出所述票据图片中的表格;对识别出的表格的所有交点进行位置标记,并根据预先确定的排序规则将所述位置标记进行排序,生成位置序列;分别计算各个交点与所述位置序列中的预定义的位置点之间的像素距离,将计算得到的各个像素距离进行归一化处理,得到所述表格的特征向量。3.如权利要求1或2所述的电子装置,其特征在于,所述票据识别程序被所述处理器执行时还实现如下步骤:若确定出待识别的票据图片对应的票据类型包含多个子类型,则根据预先训练完成的分类器对该票据类型进行识别,以识别出待识别的票据图片对应的子类型。4.如权利要求3所述的电子装置,其特征在于,所述预先训练完成的分类器的训练过程包括:构造该票据类型的结构型Haar特征并与基本Haar特征组成新增特征库,并利用该特征库提取样本特征值;采用Adaboost算法训练分类器,提取自适应分类阈值,得到最佳弱分类器;多次迭代训练多个弱分类器,加权平均成强分类器;训练多个强分类器,组成级联分类器,所述级联分类器为训练完成的分类器。5.如权利要求4所述的电子装置,其特征在于,所述构造该票据类型的结构型Haar特征并与基本Haar特征组成新增特征库,并利用该特征库提取样本特征值的步骤,包括:设计该票据类型的三种结构型Haar矩形特征,包括该票据类型包含的行数和类型的Haar特征,其中,所述Haar每一行包含的列数与所述列数中包含有印刷字段的Haar特征,每一列包含的行数与所述行数中包含有印刷字段的Haar特征;结合水平边缘、垂直边缘、水平中心、垂直中心和对角特征在内的五种基本的Haar特征组成新增Haar特征库;利用积分图加速算法提取所有样本特征值。6.一种票据识别方法,其特征在于,所述方法包括如下步骤:S1、对待识别的票据图片中的表单进行直线检测,获取票据图片中的各个表单框线和各个表单框线之间的位置关系;S2、根据各个表单框线和各个表单框线之间的位置关系,计算出所述票据图片的特征向量;S3、计算所述表格的特征向量与预先确定的各类型票据表格的标准向量之间的相似度,若有某类型票据表格的标准向量与所述表格的特征向量之间的相似度小于或等于预设的相似度阈值,则确定待识别的票据图片为该类型票据。7.如权利要求6所述的票据识别方法,其特征在于,所述步骤S2包括:根据各个表单框线和各个表单框线之间的位置关系,提取表单框线的各个交叉点,获取各个交叉点的信息,以及,获取各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;根据各个交叉点的信息、水平方向表单框线的信息和垂直方向表单框线的信息,识别出所述票据图片中的表格;对识别出的表格的所有交点进行位置标记,并根据预先确定的排序规则将所述位置标记进行排序,生成位置序列;分别计算各个交点与所述位置序列中的预定义的位置点之间的像素距离,将计算得到的各个像素距离进行归一化处理,得到所述表格的特征向量。8.如权利要求6或7所述的票据识别方法,其特征在于,所述方法还包括如下步骤:若确定出待识别的票据图片对应的票据类型包含多个子类型,则根据预先训练完成的分类器对该票据类型进行识别,以识别出待识别的票据图片对应的子类型。9.如权利要求8所述的票据识别方法,其特征在于,所述预先训练完成的分类器的训练过程包括:构造该票据类型的结构型Haar特征并与基本Haar特征组成新增特征库,并利用该特征库提取样本特征值;采用Adaboost算法训练分类器,提取自适应分类阈值,得到最佳弱分类器;多次迭代训练多个弱分类器,加权平均成强分类器;训练多个强分类器,组成级联分类器,所述级联分类器为训练完成的分类器。10.一种计算机可读存储介质,所述计算机可读存储介质存储有票据识别程序,所述票据识别程序可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求6-9中任一项所述的票据识别方法的步骤。

百度查询: 平安科技(深圳)有限公司 电子装置、票据识别方法及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。