首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

手写样本生成方法、装置、计算机设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:平安科技(深圳)有限公司

摘要:本发明公开了一种手写样本生成方法、装置、计算机设备及存储介质。所述方法包括:获取手写输入法中的字体文件;获取文本语料文件;根据预设的图片尺寸绘制画布,并设置画布的背景颜色;从预设的语料数据库中提取语料文本,并从预设的字体库中选取目标字体文件;使用目标字体文件将语料文本转换为目标字体文件对应的手写文本;根据画布尺寸和手写文本,确定手写文本的文本尺寸;按照手写文本的文本尺寸,在画布上绘制手写文本,得到手写样本图片;将手写样本图片和语料文本作为手写样本,保存到手写样本数据集中。本发明的技术方案提高手写样本的收集效率,同时能够丰富手写样本的样本数量,进而有效提高手写文本识别模型的识别准确率。

主权项:1.一种手写样本生成方法,其特征在于,所述手写样本生成方法包括:获取预设的手写输入法中的字体文件,并将所述字体文件保存在预设的字体库中;获取文本语料文件,并将所述文本语料文件保存在预设的语料数据库中;根据预设的图片尺寸绘制画布,并设置所述画布的背景颜色;按照预设的选取方式,从所述预设的语料数据库中提取语料文本,并从所述预设的字体库中选取目标字体文件;使用所述目标字体文件将所述语料文本转换为所述目标字体文件对应的手写文本;根据画布尺寸和所述手写文本,确定所述手写文本的文本尺寸;统计该手写文本包含的字符数量,按照预设的初始字体大小,根据字符数量和字体尺寸对应关系,计算手写文本的文本尺寸,若该文本尺寸大于画布尺寸,则在初始字体大小的基础上按照预设的单位逐次减小字体大小,直到手写文本的文本尺寸小于或者等于画布尺寸为止;按照所述手写文本的文本尺寸,在所述画布上绘制所述手写文本,得到手写样本图片;将所述手写样本图片和所述语料文本作为手写样本,保存到预设的手写样本数据集中;在所述获取文本语料文件,并将所述文本语料文件保存在预设的语料数据库中的步骤之后,并且在所述根据预设的图片尺寸绘制画布,并设置所述画布的背景颜色的步骤之前,所述手写样本生成方法还包括:根据预设的文本字典,对所述文本语料文件的内容进行筛选,将所述文本语料文件中不属于所述文本字典的文本内容从所述文本语料文件中删除。

全文数据:手写样本生成方法、装置、计算机设备及存储介质技术领域本发明涉及计算机技术领域,尤其涉及一种手写样本生成方法、装置、计算机设备及存储介质。背景技术在对手写文本识别的研究中,需要准备大量的手写样本以支撑手写文本识别模型的模型训练。但是,目前的手写样本往往以人工收集为主,由于手写样本的种类繁多,造成人工收集手写样本的工作量大,同时,对收集到的手写样本还需要花费大量的时间进行错误清洗,导致手写样本的收集效率低,且人工收集的数量有限,无法很好的支撑手写文本识别模型的模型训练,造成模型训练困难,进而影响到模型的识别准确率。发明内容本发明实施例提供一种手写样本生成方法、装置、计算机设备及存储介质,以解决目前手写样本的收集成本高,收集效率低,影响手写文本识别模型的识别准确率的问题。一种手写样本生成方法,包括:获取预设的手写输入法中的字体文件,并将所述字体文件保存在预设的字体库中;获取文本语料文件,并将所述文本语料文件保存在预设的语料数据库中;根据预设的图片尺寸绘制画布,并设置所述画布的背景颜色;按照预设的选取方式,从所述预设的语料数据库中提取语料文本,并从所述预设的字体库中选取目标字体文件;使用所述目标字体文件将所述语料文本转换为所述目标字体文件对应的手写文本;根据所述画布尺寸和所述手写文本,确定所述手写文本的文本尺寸;按照所述手写文本的文本尺寸,在所述画布上绘制所述手写文本,得到手写样本图片;将所述手写样本图片和所述语料文本作为手写样本,保存到预设的手写样本数据集中。一种手写样本生成装置,包括:字体获取模块,用于获取预设的手写输入法中的字体文件,并将所述字体文件保存在预设的字体库中;语料获取模块,用于获取文本语料文件,并将所述文本语料文件保存在预设的语料数据库中;画布绘制模块,用于根据预设的图片尺寸绘制画布,并设置所述画布的背景颜色;选取模块,用于按照预设的选取方式,从所述预设的语料数据库中提取语料文本,并从所述预设的字体库中选取目标字体文件;转换模块,用于使用所述目标字体文件将所述语料文本转换为所述目标字体文件对应的手写文本;尺寸计算模块,用于根据所述画布尺寸和所述手写文本,确定所述手写文本的文本尺寸;合成模块,用于按照所述手写文本的文本尺寸,在所述画布上绘制所述手写文本,得到手写样本图片;保存模块,用于将所述手写样本图片和所述语料文本作为手写样本,保存到预设的手写样本数据集中。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述手写样本生成方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述手写样本生成方法的步骤。上述手写样本生成方法、装置、计算机设备及存储介质中,一方面,通过获取预设的手写输入法中的字体文件和获取文本语料文件,采用手写输入法中的字体文件对应的手写字体,将从文本语料文件中提取的语料文本绘制在画布上,得到手写样本图片,实现自动收集手写样本,不需要人工进行手写样本的收集,从而降低手写样本的收集成本,并提高了手写样本的收集效率;另一方面,通过从预设的字体库中选取的目标字体文件,并从预设的语料数据库中提取的语料文本,将目标字体文件和预料文本之间进行组合,使用目标字体文件将语料文本转换为该目标字体文件对应的手写文本,从而能够自动生成包含各种不同手写字体的手写文本的手写样本图片,使得手写样本的收集具有较强的灵活性,能够极大的丰富手写样本的样本数量,为后续针对手写文本识别模型的训练和调优建立基础,进而有效提高手写文本识别模型的识别准确率。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本发明一实施例中手写样本生成方法的一流程图;图2是本发明一实施例中手写样本生成方法中对手写样本进行扩充处理的一流程图;图3是本发明一实施例中手写样本生成方法中步骤S8的一流程图;图4是本发明一实施例中手写样本生成方法中步骤S83的一流程图;图5是本发明一实施例中手写样本生成装置的一示意图;图6是本发明一实施例中计算机设备的一示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本申请提供的手写样本生成方法,可应用在服务端,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。在一实施例中,如图1所示,提供一种手写样本生成方法,详述如下:S1:获取预设的手写输入法中的字体文件,并将该字体文件保存在预设的字体库中。预设的手写输入法具体为第三方平台在互联网上提供的手写输入法,手写输入法中包含各种手写字体的字体文件,服务端预先设置需要获取字体文件的手写输入法,其设置方式可以是为用户提供配置通道,由用户配置需要的手写输入法。具体地,服务端从互联网下载预设的手写输入法中手写字体的字体文件,字体文件的文件格式包括但不限于ttf、otf、ttc等。可以理解的,字体文件可以有多个,每个字体文件定义一种手写字体的格式。服务端将下载得到的字体文件保存在预设的字体库中。预设的字体库用于存储各种手写字体的字体文件。S2:获取文本语料文件,并将该文本语料文件保存在预设的语料数据库中。具体地,服务端通过预设的获取方式获取文本语料文件,文本语料文件的内容包括但不限于新闻、小说、故事等,文本语料文件的文件格式包括但不限于txt、doc等。需要说明的是,预设的获取方式具体可以是通过爬虫软件在互联网搜索和下载,或者从预设的文件数据库中获取,还可以是其他能够得到文字文本的获取方式,其具体可以根据实际应用的需要进行设置,此处不做限制。可以理解的,文本语料文件可以有多个。服务端将获取到的文本语料文件保存到预设的语料数据库中。进一步地,服务端按照预设的分类方式对文本语料文件进行分类,并根据分类结果,将文本语料文件按照所属的类别,分类存放在语料数据库中。其中,预设的分类方式可以是按照领域进行分类,例如,化学、文学等不同领域,还可以是按照文本属性进行分类,例如,新闻、小说等不同属性,具体的分类方式可以根据实际应用的需要进行设置。S3:根据预设的图片尺寸绘制画布,并设置该画布的背景颜色。具体地,图片尺寸可以包括长和宽,单位可以为像素,预设的图片尺寸为手写样本图片的图片尺寸,其具体的尺寸大小可以根据实际应用的需要预先设置,服务端按照该图片尺寸绘制画布。服务端可以直接使用预设的创建画布的功能组件绘制指定尺寸的画布,并可以进一步使用预设的设置画布颜色的功能组件设置画布的背景颜色。例如,可以使用GD2函数库中的imagecreate函数创建画布,以及imagecolorallocate函数设置画布的背景颜色。假设预设的图片尺寸为500*400,即画布的长为500像素,宽为300像素,画布的背景颜色的RGB值为211,126,29,则具体实现方式如下:$im=imagecreate500,400;创建一个图片尺寸为500*400的画布$im$white=imagecolorallocate$im,211,126,29;设置画布$im的背景颜色为的RGB值211,126,29对应的颜色。需要说明的是,步骤S1、步骤S2和步骤S3之间没有必然的先后执行顺序,其可以是并列执行的关系,此处不做限制。S4:按照预设的选取方式,从预设的语料数据库中提取语料文本,并从预设的字体库中选取目标字体文件。具体地,预设的选取方式包括文本语料文件的选取方式、语料文本的选取方式和字体的选取方式。其中,文本语料文件的选取方式可以是随机选择文本语料文件,也可以是根据模型训练的需要选择特定类别的文本语料文件;语料文本的选取方式具体可以是随机选择一个字、一句话、一个词、或者随机组合的字行等;字体的选取方式可以是随机选取一种或者多种字体,也可以是循环选取每种字体,还可以是根据模型训练的需要选择特定的字体。需要说明的是,文本语料文件的选取方式、语料文本的选取方式和字体的选取方式均可以根据实际应用的需要进行设置,此处不做限制。例如,若预设的语料数据库中的文本语料文件按照所属的科学领域的类别进行分类存放,则当模型训练针对化学领域时,可以从预设的语料数据库中提取类别为化学的语料文件。S5:使用目标字体文件将语料文本转换为该目标字体文件对应的手写文本。具体地,步骤S4得到的目标字体文件可以为一个或者多个,语料文本也可以为一个或者多个,因此,将目标字体文件和语料文本进行组合,每种组合方式包含一个目标字体文件和一个语料文本,将每种组合方式中的语料文本转换为该种组合方式中的目标字体文件对应的手写文本。需要说明的是,语料文本是指标准字体的文本,手写文本是指使用目标字体文件书写的文本。例如,步骤S4得到的目标字体文件为3个,语料文本为10个,则得到的组合方式一共有30个,即每个语料文本均使用3种手写字体进行转换,得到30个不同的手写文本。S6:根据画布尺寸和手写文本,确定该手写文本的文本尺寸。在本实施例中,画布尺寸即为步骤S3中预设的图片尺寸,手写文本的文本尺寸即为手写文本占用的矩形图像区域的尺寸,可以理解的,手写文本中的每个字符的手写字体和字体大小与该字符占用的矩形图像区域的尺寸之间具有字体尺寸对应关系,该字体尺寸对应关系可以通过公式P=fa,c体现,其中,a为字符的手写字体,c为字符的字体大小,P为字符占用的矩形图像区域的尺寸,f为根据字符的手写字体和字体大小得到该字符占用的矩形图像区域的尺寸的映射函数。具体地,由于相同字体大小的语料文本在使用不同的手写字体时,其占用的矩形图像区域的图像尺寸并不相同,即手写文本的文本尺寸不同,因此,服务端需根据画布尺寸和步骤S5得到的手写文本,确定该手写文本的文本尺寸,具体可以采用如下两种方式:1根据步骤S5得到的手写文本,统计该手写文本包含的字符数量,并结合画布尺寸和字体尺寸对应关系,计算该手写文本中每个字符的字体大小,使得该手写文本的文本尺寸小于或者等于画布尺寸。2根据步骤S5得到的手写文本,统计该手写文本包含的字符数量,按照预设的初始字体大小,根据字符数量和字体尺寸对应关系,计算手写文本的文本尺寸,若该文本尺寸大于画布尺寸,则在初始字体大小的基础上按照预设的单位逐次减小字体大小,直到手写文本的文本尺寸小于或者等于画布尺寸为止。以第2种方式为例,假设步骤S4得到的语料文本为“AI科技创新探索进程”,统计该语料文本包含的字符数量为10,按照初始字体大小为64号字体,计算“AI科技创新探索进程”占用的矩形图像区域的图像尺寸,若该图像尺寸大于画布尺寸36*280,则减小1号字体重新计算,即按照63号字体重新计算“AI科技创新探索进程”占用的矩形图像区域的图像尺寸,若得到的图像尺寸仍然大于36*280,则继续减小1号字体再重新计算,直到“AI科技创新探索进程”占用的矩形图像区域的图像尺寸小于或者等于36*280为止。S7:按照手写文本的文本尺寸,在画布上绘制该手写文本,得到手写样本图片。具体地,按照步骤S6确定的手写文本的文本尺寸,在步骤S3创建的画布上绘制该手写文本,得到手写样本图片。例如,可以使用GD2函数库中的gdImageStringFT函数进行手写文本绘制。进一步地,在画布上绘制手写文本时,还可以设置手写文本在画布上的位置和手写文本的字体颜色。例如,将手写文本的位置坐标和字体颜色作为参数传入gdImageStringFT函数中,即可在画布的指定位置绘制指定颜色的手写文本。优选地,将手写文本绘制在画布的中心位置。S8:将手写样本图片和语料文本作为手写样本,保存到预设的手写样本数据集中。具体地,将步骤S7得到的手写样本图片和该手写样本图片包含的手写文本所对应的语料文本作为一个手写样本,即将手写样本图片和语料文本对应保存到手写样本数据集中。本实施例中,一方面,通过获取预设的手写输入法中的字体文件和获取文本语料文件,采用手写输入法中的字体文件对应的手写字体,将从文本语料文件中提取的语料文本绘制在画布上,得到手写样本图片,实现自动收集手写样本,不需要人工进行手写样本的收集,从而降低手写样本的收集成本,并提高了手写样本的收集效率;另一方面,通过从预设的字体库中选取的目标字体文件,并从预设的语料数据库中提取的语料文本,将目标字体文件和预料文本之间进行组合,使用目标字体文件将语料文本转换为该目标字体文件对应的手写文本,从而能够自动生成包含各种不同手写字体的手写文本的手写样本图片,使得手写样本的收集具有较强的灵活性,能够极大的丰富手写样本的样本数量,为后续针对手写文本识别模型的训练和调优建立基础,进而有效提高手写文本识别模型的识别准确率。在一实施例中,在步骤S2之后,并且在步骤S3之前,该手写样本生成方法还包括如下步骤:根据预设的文本字典,对文本语料文件的内容进行筛选,将文本语料文件中不属于文本字典的文本内容从该文本语料文件中删除。在本实施例中,预设的文本字典为基础文本集合,该基础文本集合包含手写文本识别模型训练所需的基础文本,进一步地,基础文本可以按照预设的分类方式进行分类,该预设的分类方式与预设的语料数据库中文本语料文件的分类方式相对应。例如,若预设的语料数据库中的文本语料文件按照所属的科学领域的类别进行分类存放,则文本字典中的基础文本也按照所属的科学领域的类别进行分类。具体地,服务端对每个文本语料文件,检测该文本语料文件中每个字符是否在文本字典中存在,若存在,则将该字符保留在该文本语料文件中,若不存在,则将该字符从该文本语料文件中删除。例如,假设文本字典中包含的基础文本包括:0123456789abcdefghijklmn,若文本语料文件的内容为:“一二三123四五六abc”,则删除在文本字典不存在的内容“一二三四五六”后,得到更新后的文本语料文件的内容为:“123abc”。本实施例中,服务端根据预设的文本字典,对文本语料文件的内容进行筛选,将文本语料文件中不属于预设的文本字典的文本内容从该文本语料文件中删除,从而将不适合进行手写文本识别模型训练的语料文本提前从文本语料文件中删除,避免后续对不适合进行手写文本识别模型训练的语料文本进行手写样本的构建,在提高手写样本的收集效率的同时,能够使得在使用构建的手写样本进行手写文本识别模型训练和调优时更加具有针对性,从而有利于提高手写文本识别模型的识别准确率。在一实施例中,如图2所示,在步骤S8之后,该手写样本生成方法还包括对手写样本的扩充处理,详述如下:S9:按照预设的图片效果处理方式对手写样本图片进行处理,得到更新图片。具体地,服务端按照预设的图片效果处理方式对手写样本图片进行处理,并将得到的新的图片作为该手写样本图片对应的更新图片。其中,预设的图片效果处理方式是对手写样本图片进行图形效果的变换,或者对手写样本图片中的手写文本进行字形的变换。例如,图片效果处理方式可以是采用随机高斯模糊算法对手写样本图片中的手写文本进行模糊处理,或者是采用随机角度倾斜方式对手写样本图片中的手写文本进行角度调整,或者是采用对手写样本图片增加水印、增加边框、增加背景图案或者改变画布的背景颜色等。需要说明的是,图片效果处理方式具体可以根据实际应用的需要进行设置,此处不做限制。S10:将更新图片和语料文本作为新的手写样本,保存到手写样本数据集中。具体地,服务端将步骤S9得到的手写样本图片对应的更新图片和该手写样本图片对应的语料文本作为新的手写样本,即将更新图片和语料文本对应保存到手写样本数据集中。本实施例中,通过预设的图片效果处理方式对手写样本图片进行处理得到新的图片,并将该新的图片和该手写样本图片对应的语料文本作为新的手写样本,保存在手写样本数据集中,实现了对手写样本的有效扩充,从而进一步提高手写样本的收集效率。在一实施例中,如图3所示,步骤S9中,按照预设的图片效果处理方式对手写样本图片进行处理,得到更新图片,具体包括如下步骤:S91:获取手写样本图片中每个像素点的像素值。具体地,根据手写样本图片的尺寸,即预设的图片尺寸,遍历手写样本图片中每个像素点,并获取每个像素点的像素值。S92:从手写样本图片中手写文本所在的图像区域随机选择N个像素点,得到N个目标像素点,其中,N为正整数。具体地,在步骤S7中在画布上绘制手写文本时确定的手写文本在画布上的位置,即为手写文本所在的图像区域,服务端从该图像区域随机选择N个像素点,得到N个目标像素点。S93:对每个目标像素点的像素值进行高斯模糊处理,得到每个目标像素点的目标像素值。具体地,根据步骤S91得到的每个像素点的像素值,确定步骤S92得到的每个目标像素点的像素值,并对每个目标像素点的像素值进行高斯模糊处理,并将高斯模糊处理后的像素值作为每个目标像素点的目标像素值。其中,高斯模糊GaussianBlur处理也叫高斯平滑处理,是图像处理中常用的图像效果处理方法,常用来减少图像噪声以及降低细节层次。图像的高斯模糊处理过程就是图像与正态分布进行卷积计算的过程,相当于低通滤波器。可以理解的是,在对目标像素点的像素值进行高斯模糊处理时,可以对目标像素点的RGB三个通道的像素值分别做随机高斯模糊处理。S94:使用目标像素点的目标像素值替换该目标像素点的像素值,得到更新图片。具体地,服务端将手写样本图片中每个目标像素点的像素值修改为步骤S83得到的该目标像素点的目标像素值后,得到的新的手写样本图片即为更新图片。本实施例中,从手写样本图片中手写文本所在的图像区域随机选择N个目标像素点,并对每个目标像素点的像素值进行高斯模糊处理,并使用得到的目标像素值替换原像素值,从而得到更新图片,实现了对手写样本图片的有效扩充,并且,采用高斯模糊的处理方式对手写文本的显示效果进行变化,有利于在进行手写文本识别模型的训练时,增强对手写文本识别模型的训练效果,进而提高手写文本识别模型的识别准确率。在一实施例中,如图4所示,步骤S93中,对每个目标像素点的像素值进行高斯模糊处理,得到每个目标像素点的目标像素值,具体包括如下步骤:S931:以目标像素点为中心,将目标像素点和目标像素点周围的K个像素点构成权重区域,其中,K为正整数。具体地,以目标像素点的位置为中心,选取目标像素点周围的K个像素点,并将目标像素点和该K个像素点构成的像素点区域作为权重区域。例如,当K等于8时,可以选取目标像素点周围与该目标像素点相邻的8个像素点,将该8个像素点和该目标像素点构成3*3的像素矩阵区域,该3*3的像素矩阵区域即为权重区域。S932:按照如下公式计算权重区域中每个像素点的权重值:其中,xi,yi为权重区域中第i个像素点的位置坐标,P0xi,yi为权重区域中第i个像素点的概率密度,Pxi,yi为权重区域中第i个像素点的权重值,σ为预设的高斯参数,i∈[1,K+1]。具体地,以目标像素点的位置为坐标原点,根据权重区域中每个像素点与目标像素点之间的相对位置,确定权重区域中每个像素点的位置坐标xi,yi,例如,在权重区域中与目标像素点右相邻的像素点的位置坐标为1,0。使用上述公式中的计算像素点xi,yi符合正态分布的概率密度,并继续使用上述公式中的计算像素点xi,yi的权重值Pxi,yi,以使得K+1个像素点的权重值之和为1。其中,预设的高斯参数具体可以是正太分布的标准差。S933:将权重区域中每个像素点的像素值与该像素点的权重值相乘,并将得到的K+1个乘积相加,得到目标像素点的目标像素值。具体地,根据步骤S932确定的权重区域中每个像素点的权重值,将每个像素点的像素值与该像素点的权重值相乘,即得到K+1个乘积,然后将得到的K+1个乘积进行累加,得到的累加和即为目标像素点的目标像素值。本实施例中,以目标像素点为中心,将目标像素点和目标像素点周围的K个像素点构成权重区域,计算权重区域中每个像素点的权重值,并将权重区域中每个像素点的像素值与该像素点的权重值相乘后,对得到的K+1个乘积进行累加,将得到的累加和作为目标像素点的目标像素值,实现了采用高斯模糊的处理方式对目标像素点的像素值进行调整,使更新图片达到手写文本所在区域的模糊效果,有利于在进行手写文本识别模型的训练时,增强对手写文本识别模型的训练效果,进而提高手写文本识别模型的识别准确率。应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。在一实施例中,提供一种手写样本生成装置,该手写样本生成装置与上述实施例中手写样本生成方法一一对应。如图5所示,该手写样本生成装置包括字体获取模块51、语料获取模块52、画布绘制模块53、选取模块54、转换模块55、尺寸计算模块56、合成模块57和保存模块58。各功能模块详细说明如下:字体获取模块51,用于获取预设的手写输入法中的字体文件,并将该字体文件保存在预设的字体库中;语料获取模块52,用于获取文本语料文件,并将该文本语料文件保存在预设的语料数据库中;画布绘制模块53,用于根据预设的图片尺寸绘制画布,并设置画布的背景颜色;选取模块54,用于按照预设的选取方式,从预设的语料数据库中提取语料文本,并从预设的字体库中选取目标字体文件;转换模块55,用于使用目标字体文件将语料文本转换为该目标字体文件对应的手写文本;尺寸计算模块56,用于根据画布尺寸和手写文本,确定该手写文本的文本尺寸;合成模块57,用于按照手写文本的文本尺寸,在画布上绘制该手写文本,得到手写样本图片;保存模块58,用于将手写样本图片和语料文本作为手写样本,保存到预设的手写样本数据集中。进一步地,该手写样本生成装置还包括:语料筛选模块,用于根据预设的文本字典,对文本语料文件的内容进行筛选,将文本语料文件中不属于文本字典的文本内容从该文本语料文件中删除。进一步地,该手写样本生成装置还包括:效果处理模块,用于按照预设的图片效果处理方式对手写样本图片进行处理,得到更新图片;更新模块,用于将更新图片和语料文本作为新的手写样本,保存到手写样本数据集中。进一步地,效果处理模块包括:像素值获取子模块,用于获取手写样本图片中每个像素点的像素值;像素点选择子模块,用于从手写样本图片中手写文本所在的图像区域随机选择N个像素点,得到N个目标像素点,其中,N为正整数;模糊处理子模块,用于对每个目标像素点的像素值进行高斯模糊处理,得到每个目标像素点的目标像素值;像素值更新子模块,用于使用目标像素点的目标像素值替换该目标像素点的像素值,得到更新图片。进一步地,模糊处理子模块包括:区域确定单元,用于以目标像素点为中心,将该目标像素点和该目标像素点周围的K个像素点构成权重区域,其中,K为正整数;权重计算单元,用于按照如下公式计算权重区域中每个像素点的权重值:其中,xi,yi为权重区域中第i个像素点的位置坐标,P0xi,yi为权重区域中第i个像素点的概率密度,Pxi,yi为权重区域中第i个像素点的权重值,σ为预设的高斯参数,i∈[1,K+1];目标像素值计算单元,用于将权重区域中每个像素点的像素值与该像素点的权重值相乘,并将得到的K+1个乘积相加,得到目标像素点的目标像素值。关于手写样本生成装置的具体限定可以参见上文中对于手写样本生成方法的限定,在此不再赘述。上述手写样本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储手写样本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种手写样本生成方法。在一实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例手写样本生成方法的步骤,例如图1所示的步骤S1至步骤S8。或者,处理器执行计算机程序时实现上述实施例中手写样本生成装置的各模块单元的功能,例如图5所示模块51至模块58的功能。为避免重复,此处不再赘述。在一实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例中手写样本生成方法,或者,该计算机程序被处理器执行时实现上述装置实施例中手写样本生成装置中各模块单元的功能。为避免重复,此处不再赘述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路SynchlinkDRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

权利要求:1.一种手写样本生成方法,其特征在于,所述手写样本生成方法包括:获取预设的手写输入法中的字体文件,并将所述字体文件保存在预设的字体库中;获取文本语料文件,并将所述文本语料文件保存在预设的语料数据库中;根据预设的图片尺寸绘制画布,并设置所述画布的背景颜色;按照预设的选取方式,从所述预设的语料数据库中提取语料文本,并从所述预设的字体库中选取目标字体文件;使用所述目标字体文件将所述语料文本转换为所述目标字体文件对应的手写文本;根据所述画布尺寸和所述手写文本,确定所述手写文本的文本尺寸;按照所述手写文本的文本尺寸,在所述画布上绘制所述手写文本,得到手写样本图片;将所述手写样本图片和所述语料文本作为手写样本,保存到预设的手写样本数据集中。2.如权利要求1所述的手写样本生成方法,其特征在于,在所述获取文本语料文件,并将所述文本语料文件保存在预设的语料数据库中的步骤之后,并且在所述根据预设的图片尺寸绘制画布,并设置所述画布的背景颜色的步骤之前,所述手写样本生成方法还包括:根据预设的文本字典,对所述文本语料文件的内容进行筛选,将所述文本语料文件中不属于所述文本字典的文本内容从所述文本语料文件中删除。3.如权利要求1或2所述的手写样本生成方法,其特征在于,在所述将所述手写样本图片和所述语料文本作为手写样本,保存到预设的手写样本数据集中的步骤之后,所述手写样本生成方法还包括:按照预设的图片效果处理方式对所述手写样本图片进行处理,得到更新图片;将所述更新图片和所述语料文本作为新的手写样本,保存到所述手写样本数据集中。4.如权利要求3所述的手写样本生成方法,其特征在于,所述按照预设的图片效果处理方式对所述手写样本图片进行处理,得到更新图片包括:获取所述手写样本图片中每个像素点的像素值;从所述手写样本图片中所述手写文本所在的图像区域随机选择N个像素点,得到N个目标像素点,其中,N为正整数;对每个所述目标像素点的像素值进行高斯模糊处理,得到每个所述目标像素点的目标像素值;使用所述目标像素点的目标像素值替换所述目标像素点的像素值,得到所述更新图片。5.如权利要求4所述的手写样本生成方法,其特征在于,所述对每个所述目标像素点的像素值进行高斯模糊处理,得到每个所述目标像素点的目标像素值包括:以所述目标像素点为中心,将所述目标像素点和所述目标像素点周围的K个像素点构成权重区域,其中,K为正整数;按照如下公式计算所述权重区域中每个像素点的权重值:其中,xi,yi为所述权重区域中第i个像素点的位置坐标,P0xi,yi为所述权重区域中第i个像素点的概率密度,Pxi,yi为所述权重区域中第i个像素点的权重值,σ为预设的高斯参数,i∈[1,K+1];将所述权重区域中每个所述像素点的像素值与该像素点的权重值相乘,并将得到的K+1个乘积相加,得到所述目标像素点的目标像素值。6.一种手写样本生成装置,其特征在于,所述手写样本生成装置包括:字体获取模块,用于获取预设的手写输入法中的字体文件,并将所述字体文件保存在预设的字体库中;语料获取模块,用于获取文本语料文件,并将所述文本语料文件保存在预设的语料数据库中;画布绘制模块,用于根据预设的图片尺寸绘制画布,并设置所述画布的背景颜色;选取模块,用于按照预设的选取方式,从所述预设的语料数据库中提取语料文本,并从所述预设的字体库中选取目标字体文件;转换模块,用于使用所述目标字体文件将所述语料文本转换为所述目标字体文件对应的手写文本;尺寸计算模块,用于根据所述画布尺寸和所述手写文本,确定所述手写文本的文本尺寸;合成模块,用于按照所述手写文本的文本尺寸,在所述画布上绘制所述手写文本,得到手写样本图片;保存模块,用于将所述手写样本图片和所述语料文本作为手写样本,保存到预设的手写样本数据集中。7.如权利要求1所述的手写样本生成装置,其特征在于,所述手写样本生成装置还包括:语料筛选模块,用于根据预设的文本字典,对所述文本语料文件的内容进行筛选,将所述文本语料文件中不属于所述文本字典的文本内容从所述文本语料文件中删除。8.如权利要求6或7所述的手写样本生成装置,其特征在于,所述手写样本生成装置还包括:效果处理模块,用于按照预设的图片效果处理方式对所述手写样本图片进行处理,得到更新图片;更新模块,用于将所述更新图片和所述语料文本作为新的手写样本,保存到所述手写样本数据集中。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述手写样本生成方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述手写样本生成方法的步骤。

百度查询: 平安科技(深圳)有限公司 手写样本生成方法、装置、计算机设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。