Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

使用机器学习和模糊匹配自动分层分类文档和标识元数据 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:埃森哲环球解决方案有限公司

摘要:本公开的实施例涉及使用机器学习和模糊匹配自动分层分类文档和标识元数据。公开了一种分层文档分类系统。该系统包括:基于文本的文档分类器模型,用于将输入电子文档分类为预定义文档类别集之一。该系统还包括:基于图像的元数据标识模型,用于将特定文档类别的电子文档分类到元数据类别集中。该系统还包括:模糊文本匹配器,用于补充基于图像的元数据标识模型的分类准确度,以获得针对输入电子文档的元数据类别。

主权项:1.一种系统,包括:数据库244,包括被组织在元数据字段611中的元数据数据元素,和模糊文本匹配模型242,其中所述元数据字段611至少包括元数据类别字段,所述元数据类别字段包含元数据类别数据元素;存储器120,用于存储基于机器学习算法而建立的基于文本的文档分类器模型142、使用训练数据语料库410训练的元数据类别标识模型238和模糊文本匹配器146;以及系统电路,与所述数据库244和所述存储器120通信,所述系统电路被配置为:接收电子文档;响应于使用所述基于文本的文档分类器模型142来确定所述电子文档属于预定文档类别集:获得与所述电子文档相对应的图像;使用所述元数据类别标识模型238来获得所述图像与所述元数据类别字段的第一元数据类别数据元素的第一关联;使用所述模糊文本匹配器146来获得所述电子文档与所述数据库的所述元数据数据元素的子集的第二关联;基于所述第一关联和所述第二关联,确定所述第一元数据类别数据元素中的单个元数据类别数据元素和与所述数据库的所述元数据数据元素的所述子集相对应的元数据类别数据元素集,作为针对所述电子文档的标签;以及使用所述模糊文本匹配器146、通过以下来获得所述电子文档与所述数据库的所述元数据数据元素的所述子集的所述第二关联:提取被包含在所述电子文档中的文本的n元集632,634,636,以表示所述电子文档;以及在所述n元集632,634,636与所述数据库的所述元数据数据元素之间执行模糊匹配,以标识所述数据库的所述元数据数据元素的与所述n元集632,634,636匹配的所述子集,并且以获得所述第二关联,其中执行模糊匹配包括:在所述n元集与所述数据库的所述元数据数据元素之间执行模糊匹配,以标识所述元数据字段611中的每个元数据字段内预定数目的最佳匹配的元数据数据元素,以获得与所述电子文档的所述n元集632,634,636最匹配的元数据数据元素的集合,并且以获得对应关联;以及通过加权比较与所述n元集632,634,636最匹配的所述元数据数据元素的集合的对应关联来标识所述元数据数据元素的所述子集;其中所述数据库244包含与电子文档相对应的元数据,所述电子文档不存在于或者以其他方式不被包括在用于所述元数据类别标识模型238的所述训练数据语料库410中;其中所述n元集632,634,636包括单元集632、二元集634和三元集636;并且其中在所述n元集632,634,636与所述数据库的数据项之间执行模糊匹配包括:在所述单元集632、所述二元集634和所述三元集636上设置不同的权重。

全文数据:使用机器学习和模糊匹配自动分层分类文档和标识元数据相关申请的交叉引用本专利申请要求于2017年11月13日向美国专利局提交的美国专利申请No.15810,885的优先权,其全部内容通过引用并入于此。技术领域本公开涉及文档的分层分类、元数据的识别标识以及文档的属性。背景技术电子文档可能包含嵌入式文本和图像。它们可以被创建用于各种用途,并以各种电子文件格式生成。每页电子文档文件还可以与元数据和属性相关联,该元数据和属性可以或可以不直接嵌入电子文档文件的内容或数据头中。电子文档的自动分类以及与电子文档的每一页相关联的元数据和属性的识别标识可以促进对这些电子文档的组织、存档和更有效的使用。发明内容本公开的实施例涉及使用机器学习和模糊匹配自动分层分类文档和标识元数据。公开了一种分层文档分类系统。该系统包括:基于文本的文档分类器模型,用于将输入电子文档分类为预定义文档类别集之一。该系统还包括:基于图像的元数据标识模型,用于将特定文档类别的电子文档分类到元数据类别集中。该系统还包括:模糊文本匹配器,用于补充基于图像的元数据标识模型的分类准确度,以获得针对输入电子文档的元数据类别。附图说明图1示出了用于实现电子文档的分层分类和元数据识别标识的示例性计算机系统。图2示出了用于电子文档的分层分类和元数据标识的示例性实现的逻辑和数据流。图3示出了用于建立示例性的、基于文本的文档分类器模型的逻辑和数据流,该模型可以被实现为用于电子文档的分层分类和元数据识别标识的过程的一部分。图4示出了用于建立示例性的、基于图像的元数据识别标识模型的逻辑和数据流,该模型可以被实现为用于电子文档的分层分类和元数据识别标识的过程的一部分。图5示出了基于卷积神经网络技术而实现的、基于图像的元数据识别标识建模过程。图6示出了用于建立示例性模糊文本匹配器的逻辑和数据流,该模糊文本匹配器可以被实现为用于电子文档的分层分类和元数据识别标识的过程的一部分。具体实施方式电子文档可以包含被布置为页面的文本、图像和其他组件。电子文档还可以以各种电子文件格式被存储,包括但不限于:基于诸如PostScript、PDF和XML的页面描述语言的文件格式,以及诸如MicrosoftWord的二进制文件格式。例如,页面描述语言可以被用于指定文档页面中的各个组件,包括它们的内容及其位置和布局关系。特别地,被包含在文档页面中的文本信息可以作为纯文本数据组件而被嵌入,纯文本数据组件被表示为具有字体和位置布局信息的字符串,或者可以作为位图图像组件而被嵌入。在一个示例中,整个电子文档页面可以是携带嵌入的文本信息以及其他图形和布局信息的位图图像。特别地,通过光学扫描和数字化纸张源而获得的电子文档可以包含图像的位图页面。电子文档可以源自各个源,并且包含不同的内容。例如文档文件形式的电子文档还可以包括多个页面,每个页面包含不同的内容。自动文档识别、标识、分类和编目任务可以要求从大量电子文档集合中标识相关页面,并从每个相关页面中提取元数据。可以使用基于机器学习技术来开发的内容识别标识和或分类器模型来实现这种元数据识别标识。这里,术语“元数据”可以宽泛地指代电子文档页面的属性。该属性可以不被包括在例如对应电子文件的数据头中。例如,电子文档的集合可以包含供应商发票的页面等许多其他信息。在这种情况下,元数据可以指与电子文档集合中包含的发票相关联的供应商名称或ID。电子文档页面的这种元数据可以属于预定义的元数据类别集,例如,供应商名称集ID集。元数据信息可以被嵌入在电子文档的文本、图形或布局中。识别标识这样的元数据可以帮助更好地提取感兴趣的信息、标签以及组织电子文档。虽然术语“电子文档”通常可以用于指代可以包含多个页面的电子文件,但是为了简化描述,在下面的公开中,它将与术语“页面”同义地使用。这样,文档页面集合中的每个页面可以被称为电子文档,并且文档集合可以指代从电子文档文件和其他源解析和提取的页面。具有特定感兴趣类别例如,供应商发票的、并且需要元数据识别标识的电子文档或页面可能仅是大量电子文档集合的一小部分。用于在大量电子文档集合中提供直接元数据识别标识的、基于机器学习算法的模型可以要求大量文档特征、巨大搜索空间,以实现良好的元数据识别标识准确性。因此,这些模型的开发和更新可以消耗过多的计算资源量。所产生的模型可能仍然是不准确的,其归因于来自文档页面的、与例如供应商发票无关的噪声。另外,元数据信息可以嵌入在电子文档中的文本信息或图形和布局信息中,因此仅基于文本识别标识技术或仅基于图像识别标识技术的单个模型可能不足以提供总体上令人满意的元数据识别标识准确性。下面的公开内容提供了针对元数据识别标识问题的多阶段分层方法,用于提高准确性,同时用于降低输入电子文档的模型开发、模型更新和特征计算期间的计算要求。在一个示例性实现中,多阶段元数据识别标识方法包括多个例如,三个分层阶段,涉及例如基于文本的文档分类和过滤阶段,基于图像的元数据识别标识阶段,以及补充模糊文本匹配阶段,以进一步提高元数据识别标识的准确性。用于基于文本的文档分类的模型和基于图像的元数据识别标识的模型可以分别基于用于文本分类和图像分类的任何合适的机器学习算法。术语“元数据标识”和术语“元数据识别”同义使用,并且可以指识别标识嵌入在输入电子文档中的文本元数据信息例如,供应商名称和输入电子文档中的图形布局元数据模式二者,图形布局元数据模式是与特定元数据例如,特定供应商相关联的特定类型文档例如,供应商发票的特征。在一个实现中,基于文本的文档分类器模型可以用于将输入电子文档分类为预定义的文档类别集,包括例如供应商发票和其他供应商文档类别。可以过滤被分类到预定义的文档类别集中但不感兴趣的电子文档。这样,在分层方法的下一阶段中,仅需要由元数据标识模型处理属于感兴趣类别的文档,以提取元数据信息。因为仅需要进一步分析输入电子文档中电子文档的一个小的集合例如,供应商发票,所以基于机器学习技术的元数据标识模型的开发可以依赖于更有针对性和更窄范围的训练和测试语料库,并且依赖于被更好定义的机器学习特征,提供具有更高的准确性并且计算量更小的基于图像的元数据标识模型。在一个实现中,元数据标识模型可以基于图像识别和分类技术,因为特有的元数据特征可以经常被嵌入在输入电子文档中的布局和图形组件中。例如,特定供应商具有唯一供应商名称或ID可以使用包含该供应商特有的布局或图像特征的发票格式。虽然电子文档中的文本内容也可以包含实体名称和ID信息,但是经由文本识别来标识元数据可能不那么准确,因为输入电子文档中的实体名称和ID信息通常可以与除了以下实体的实体有关,该实体创作该电子文件,并发布包含在电子文档中的发票。在一些情况下,输入电子文档可以通过基于图像的元数据标识模型被标识为属于特定元数据类别例如,特定供应商名称ID,但具有低标识置信度分数。例如,当输入电子文档属于以下供应商时可能发生这种情况,该供应商在建立基于图像的元数据标识模型时其发票没有被包括在训练数据语料库中。在这些情况下,基于在输入电子文档中的文本的特征与独立元数据数据库中的元数据项的特征之间执行比较的分层方法的补充模糊文本匹配器可以帮助提高基于图像的元数据标识模型的准确性。模糊文本匹配器可以确认由基于图像的元数据标识模型进行的元数据标识,或者通过为输入电子文档提出不同但更可能的元数据类别来确认元数据标识。模糊文本匹配器所依赖的元数据数据库可以包含更广泛的元数据集,其涵盖可能在训练数据集例如,供应商发票中不具有用于建立基于图像的元数据标识模型的对应性的元数据类别,例如供应商名称和ID。在图1中,用于输入电子文档的元数据标识的系统100被示出为由计算机101实现。计算机101可以包括通信接口102、系统电路104、输入输出IO接口106、存储装置109和显示电路108,显示电路108在本地生成机器接口110或用于远程显示,例如,在运行在本地或远程机器上的web浏览器中。机器接口110和IO接口106可以包括GUI、触敏显示器、语音或面部识别输入、按钮、开关、扬声器和其他用户界面元件。IO接口106的其他示例包括麦克风、视频和静止图像相机、头戴式耳机和麦克风输入输出插孔、通用串行总线USB连接器、存储卡插槽和其他类型的输入。IO接口106还可以包括磁性或光学介质接口例如,CDROM或DVD驱动器、串行和并行总线接口以及键盘和鼠标接口。通信接口102可以包括由收发器112的发射和接收电路使用的无线发射器和接收器“收发器”112以及任何天线114。收发器112和天线114可以支持Wi-Fi网络通信,例如,在任何版本的IEEE802.11例如,802.11n或802.11ac下。通信接口102还可以包括有线收发器116。有线收发器116可以提供用于广泛的通信协议中的任何通信协议的物理层接口,诸如任何类型的以太网、电缆数据服务接口规范DOCSIS、数字订户线DSL、同步光网络SONET或其他协议。存储109可以被用于存储各种初始、中间或最终数据或模型,用于构建、更新和操作文档分类、元数据标识和模糊文本匹配模型。存储109还可以存储用于开发文档分类和元数据标识模型的数据语料库。存储109还可以被用于实现模糊文本匹配模型所需的元数据的数据库。存储109可以是集中式或分布式的。例如,它可以由云计算服务提供商来远程托管。系统电路104可以按照任何组合的方式包括硬件、软件、固件或其他电路。系统电路104可以例如用一个或多个片上系统SoC、专用集成电路ASIC、微处理器、分立模拟和数字电路和其他电路实现。系统电路104是与定制图知识库的构建、维护和应用相关的任何期望功能的实现的一部分。仅作为一个示例,系统电路104可以包括一个或多个指令处理器118和存储器120。存储器120存储例如控制指令124和操作系统122。在一个实现方式中,指令处理器118执行控制指令124和操作系统122以执行与用于文档分类、元数据标识和模糊文本匹配的模型相关的任何期望功能。图2示出了用于在图1的计算机系统100中实现的电子文档的分层分类和元数据标识的示例性逻辑和数据流200。逻辑和数据流200包括用于基于文本的文档分类和过滤过程220的逻辑和数据流、用于基于图像的元数据标识过程230的逻辑和数据流、以及用于模糊文本匹配过程240的逻辑和数据流。基于文本的文档分类和过滤过程220、基于图像的元数据标识过程230和模糊文本匹配过程240分层地相关,如图2所示。具体地,基于文本的文档分类和过滤过程220的经过滤的输出文档228被输入到基于图像的元数据标识过程230和模糊文本匹配过程240。对于图2的基于文本的文档分类和过滤过程220,首先将输入电子文档210转换为文本文档222。输入电子文档可以包含来自各种源的文档页面。例如,多页电子文档文件可以被分成多个文档,每个文档对应于一个页面。可以通过例如光学字符识别OCR来实现将输入电子文档转换为文本文档。这样,可以提取输入电子文档中包含的文本信息并将其转换为字符串。可以通过基于文本的文档分类器模型226对经转换的文本文档进行分类224。具体地,经转换的文本文件的文本特征可以使用预定义的文本特征计算算法而被计算225。可以将所计算的文本特征输入到基于文本的文档分类器模型中,该模型将经转换的文本文档分类为预定义的文档类别集之一226。该预定义的文档类别集可以包括但不限于:供应商发票、供应商计划、产品目录、产品手册、保修、供应合同等。在一个实现中,可以过滤输入电子文档以移除不属于感兴趣的文档类别的电子文档227。这样,仅感兴趣的电子文档228保留被保留,并通过基于图像的元数据标识过程230和模糊文本匹配过程240而被进一步分析。例如,供应商发票可以是唯一感兴趣的文档类别。这样,可以仅进一步分析被基于文本的文档分类过程220分类为供应商发票的电子文档,以标识元数据。对于图2的基于图像的元数据标识过程230,可以首先获得经过滤的文档228的图像250。每个图像可以对应于一个文档页面。在一个实现中,与一些经过滤的电子文档228相对应的输入文档210可能已经是图像格式,并且这些电子文档可以不需要被转换为图像。一些其他输入电子文档210最初可以是除图像之外的格式,因此在220中的过滤过程之后,它们可以被转换为图像250。然后可以处理属于感兴趣的文档类别的输入电子文档的图像中的每个图像,以提取感兴趣区域234。每个图像或文档页面的感兴趣区域可以是具有预定义大小和位置的图像的一部分或局部。例如,感兴趣区域可以是图像的左上象限。感兴趣区域的提取有助于进一步减少可能需要由基于图像的标识过程230处理的数据量。感兴趣区域的位置和大小的预先确定可以基于历史数据。例如,如果供应商发票是感兴趣的文档类别,并且供应商发票通常在左上象限包含数据中嵌入供应商元数据的文本或图形信息,则可以将感兴趣区域预定义为图像的左上象限。可以对图像进行裁剪和或变形和或重新对准以获得感兴趣区域。为了处理各种供应商可以在其发票的不同部分中放置携带信息的元数据的情况,可以运行图2的多个并行过程230,每个过程为感兴趣区域指定不同的预定义大小和位置。可以组合并行元数据标识过程230的分析结果,以确定文档的元数据信息。例如,并行处理230之一可以提取图像的左上象限,而另一个并行处理230可以提取图像的右上象限。如下面将描述的,基于图像的元数据标识建模237可以基于回归算法而不是二元分类器,其输出感兴趣的输入区域与预定义的元数据类别集中每个元数据类别相关联的概率。在正在执行并行的基于图像的元数据标识过程230的情况下,由并行元数据标识过程所标识的、元数据类别中针对特定输入电子文档的最可能元数据类别可以被确定为针对该特定输入电子文档的元数据类别。在一个实现中,可以在基于图像的元数据标识建模236之前对所提取的感兴趣区域进行预处理234。可以对感兴趣区域进行大小调整和或变形和或重新对准。例如,感兴趣区域的预处理可以包括感兴趣区域的分辨率降低。具体地,可以通过对预定数目的相邻像素一起进行聚集和平均来减少每个感兴趣区域的成像像素的数目。例如,具有200乘200成像像素的感兴趣区域可以被减少到50乘50像素。这种分辨率降低可以帮助降低基于图像的元数据标识过程230的计算要求而没有太多信息损失,因为嵌入在与输入电子文档相对应的图像中的元数据信息通常可以以相对低的分辨率被识别。对所提取的感兴趣区域的预处理可以进一步包括对感兴趣区域进行变形。例如,这种变形可以被设计成检测和拉直感兴趣区域中的偏斜。例如,当使用光学扫描仪或相机从原始纸质文档源生成输入电子文档时,可以引入这种偏斜。例如,供应商发票通常可以包括具有平行线的表。这样,可以在感兴趣区域中检测不直或不平行的线,并且可以在预处理感兴趣区域时校正这些线。例如,可以通过确定可以应用于感兴趣区域的像素化数据的变换矩阵来实现对偏斜的校正。然后,可以通过基于图像的元数据标识建模236来分析经过滤的电子文档的经预处理的感兴趣区域。具体地,可以使用用于图像特征提取的预定义算法来提取或学习经转换的文本文档的图像特征237。可以将所提取的图像特征输入到基于图像的元数据标识模型238中,元数据标识模型238将感兴趣区域分类为预定义的元数据类别之一。基于图像的元数据标识模型可以基于例如回归算法,并且因此可以被设计为:确定特定感兴趣区域与预定义的元数据类别中的每个元数据类别相关联的的概率。例如,基于图像的元数据标识模型可以被设计为:确定来自供应商发票类别的输入电子文档的特定图像的感兴趣区域与预定义的供应商名称或ID组中的每一个相关联的概率。在一个示例性实现中,图像特征提取237和图像分类器模型可以基于诸如卷积神经网络的神经网络方法。基于图像的元数据标识建模236可能无法为一些感兴趣的输入区域提供准确的元数据识别。例如,由基于图像的元数据标识建模236所确定的、感兴趣的输入区域与任何特定的预定义元数据类别相关联的概率在其他预定义元数据类别中可能不突出,指示元数据标识过程236对于指定与该感兴趣的输入区域相对应的图像的元数据类别是模棱两可的。在一种情况下,与由基于图像的元数据标识建模236处理的输入电子文档的一些感兴趣区域相对应的元数据类别的图像可以不是基于图像的元数据标识模型238的训练数据语料库的一部分。在其他情况下,训练数据语料库中使用的特定元数据类别的模板图像可以进化和改变。在又一些其他情况下,训练数据语料库中的相同模板图像可以对应于多个元数据类别例如,相同的发票模板图像对应于多个不同的供应商名称或ID。在这些各种情况下,图2的基于图像的元数据标识建模236可能无法以合理的准确度来明确地标识针对感兴趣的输入区域的单个正确元数据类别。因此,可以通过图2的模糊文本匹配过程240进一步补充那些感兴趣区域和对应的输入电子文档的元数据标识。在一个实现中,模糊文本匹配过程240包括与模糊文本匹配模型242通信的元数据数据库244。元数据数据库244可以包含与以下电子文档相对应的元数据,这些电子文档不存在于或者以其他方式不被包括在用于基于图像的元数据标识模型238的训练数据语料库中,基于图像的元数据标识模型238针对基于图像的元数据标识过程230而被开发。例如,可能存在过去、当前和未来供应商的完整列表。可以在元数据数据库244中维护这些供应商的元数据,诸如供应商名称和ID。实际发票可能仅针对这些供应商的子集而存在。来自其他潜在供应商的发票可能以前未收到过。以上基于图像的元数据标识模型238的训练和测试语料库可以对应地仅包括潜在供应商的子集的发票文档或图像。当输入电子文档包含由这些潜在供应商之一发布的发票时,基于图像的元数据标识模型238可能无法准确地确定这些输入文档的元数据类别。在这些情况下,因为这些潜在供应商的文本元数据可以在元数据数据库244中可用,并且模糊文本匹配过程240可以使用这样的信息来为与这些潜在供应商相关联的输入电子文档提供更好的元数据标识。特别地,模糊匹配过程240可以包含:标识元数据数据库244中大致匹配输入电子文档中包含的文本信息的元数据条目。可以通过考虑由基于图像的元数据标识过程230提供的概率和模糊文本匹配过程240的建议二者来确定这些电子文档的最终元数据标识260。可以从各种源来提取元数据数据库244中的文本元数据信息。这些源可能是基于文本的。备选地,这些源可以是基于图像的。例如,可以获得与供应商相关的除发票之外的文档的图像,并且可以通过例如OCR过程将这些图像转换为文本信息,并且元数据可以从经转换的文本信息中来被进一步提取,并由元数据数据库244维护。图3示出了用于建立可以在图2的基于文本的文档分类过程220中使用的示例性文档分类器模型226的逻辑和数据流300。文档分类器模型的开发可以包含:构建文本文档的语料库或标记有预定义的文档类别集的文档语料库310。文档分类器模型226的开发还可以包括:基于机器学习算法的文本特征提取过程320和迭代式文档分类器建模330。标记有预定义的文档类别集的文档语料库310可以被划分为具有标签314的训练文本文档集312和具有标签318的测试文本文档集316。可以基于电子文档集合的范围来确定预定义的文档类别集。例如,电子文档可以与供应商通信有关,并且可以包括供应商发票、供应商计划、产品目录、产品手册、保修、供应合同等。相应地,可以用这些示例性类别来标记电子文档。语料库310中的电子文档可以手动标记,或者可以使用自动化过程标记。可以定义多维特征空间以表示文档语料库310中的电子文档。多维特征空间可以由文本特征集形成,并且可以从训练文档集312中的每个文档中进一步提取这些特征,以在多维特征空间中表示文档320。训练文本文档集312中的每个文档可以由多维特征空间中的向量表示,该向量对应于多维特征空间中的点,该点具有由所提取的特征来确定的坐标。然后,文档分类器建模过程330中的机器学习算法负责确定可以被用于对多维特征空间进行聚类或分区的规则和参数,使得在多维特征空间中表示训练文本文档中具有相同文档标签的文档的点根据机器学习算法的评估函数,大致落在同一个分区中。经分区的多维特征空间和对应的参数形成基于文本的文档分类模型226的基础。可以预定义文本特征空间的维度。例如,可以使用词袋来确定文本特征空间。用于构造多维文本特征空间的其他实现可以包括:概念特征空间、基于n元的上下文特征空间、机械提取的特征空间和文档结构特征空间。多维特征空间的维数可以针对计算熟练度而被限制。例如,评分函数可以用于对特征维度进行排名,并且仅使用预定数目的最佳特征维度来形成基于文本的文档分类器模型226的多维特征空间。在一个实现中,文本特征可以是一组词或短语,并且这些特征的排名可以通过这些词或短语在文档语料库310中出现的频率来确定。文档分类器建模330可以基于各种机器学习算法,包括各种分类算法和回归算法。例如,这些分类和回归算法可以基于随机森林回归、线性回归、逻辑回归、朴素贝叶斯分类器、贝叶斯网络、普通最小二乘回归、主成分回归等。具有多个建模参数的评估函数可以被设计用于对多维特征空间进行聚类或分区,使得在多维特征空间中表示训练文本文档中具有相同文档标签的文档的点大致落在同一个分区中。建模参数形成基于文本的文档分类器模型226的基础。在使用文档语料库310中的测试文本文档集316时,可以进一步测试和改进所建立的分类模型。特别地,可以类似地提取测试文本文档集316中的文档的特征320,并将这些特征输入到基于文本的文档分类器模型226中,并根据建模参数对这些特征进行分类。可以将得到的分类与测试文本文档标签318进行比较。该文档分类器建模330可以被迭代地应用,以细化建模参数,使得所得到的文档分类器模型226在对测试文本文档集316进行分类的过程中实现预定的准确度。最终的基于文本的文档分类器模型可以用在图2的基于文本的文档分类过程220中。图2的文本特征计算225对应地遵循图3的相同特征提取过程320。图4示出了用于建立可以在图2的基于图像的元数据标识过程230中使用的示例性基于图像的元数据标识模型238的逻辑和数据流400。基于图像的元数据标识模型238可以是用于将输入图像分类为预定的元数据类别集例如,供应商名称或ID的图像分类器。基于图像的元数据标识模型的开发可以包含:构建用预定义的元数据类别集标记的图像语料库410例如,图2的感兴趣区域的图像。在一个实现中,基于图像的元数据标识模型238的开发可以进一步包括:基于机器学习算法的图像特征提取或学习320和迭代式的基于图像的元数据标识建模430。用预定义的元数据类别集标记的图像语料库410可以被划分为具有标签414的训练图像集412和具有标签418的测试图像集416。可以基于图像语料库410中的图像的范围来确定预定义的元数据类别集。例如,图像语料库410中的图像可以与来自各个供应商的发票有关。元数据类别可以对应于供应商名称或ID。因此,图像语料库410中的图像可以相应地用这些供应商名称或ID来标记。语料库中的图像可以手动标记,或者可以使用自动化过程标记。在图4的实现中,基于机器学习算法的图像特征提取420和基于图像的元数据标识建模430可以是分离的过程。具体地,可以确定或学习多维图像特征空间以表示图像语料库410中的图像。可以通过图像特征集形成多维图像特征空间,并且可以从训练图像集412中的图像中的每个图像来学习和提取这些图像特征,以表示多维图像特征空间中的图像420。训练图像集中的图像中的每个图像可以由多维图像特征空间中的向量表示,该向量对应于多维图像特征空间中的点,该点具有由提取的图像特征来确定的坐标。然后,基于图像的元数据标识建模过程430中的机器学习算法负责确定模型规则和参数,该模型规则和参数可以被用作使用针对训练图像412的元数据类别标签414的基于图像的元数据标识模型238的基础。在使用测试图像集416和测试图像标签418时,可以进一步改进模型规则和参数。最终的基于图像的元数据标识模型238然后可以被用于得出输入图像是预定的元数据类别集中的任何一个的概率。备选地,基于图像的元数据标识建模可以基于多层深度学习技术来实现,包括但不限于卷积神经网络CNN。这样,图像特征提取237和基于图像的元数据标识模型238可以整体地实现为多层CNN,如图5的示例性逻辑和数据流500中所示。示例性的基于CNN的元数据标识建模逻辑和数据流500可以包括图像特征提取层510和分类层540,用于图像特征的迭代学习,以及使用经标记的训练图像512的分类模型560和570。具体地,训练图像512通过使用N个图像特征每个图像特征以图像块514的形式而被卷积滤波,如516所示,以获得N个特征图518。N个图像特征中的每一个被随机初始化。在图5的示例中,训练图像被标准化为例如32乘32的预定大小如526s所示。针对每个图像特征的图像块的大小可以是预定的例如,5乘5,如514s所示。在卷积滤波516之后,32乘32的训练图像512变为28乘28的N个特征图518如524所示。特征图的数目N522对应于图像特征514的数目。特征图518中的每个点例如,点520对应于图像特征514之一和训练图像512的5×5的块的卷积。在该示例中,特征图518的大小是28乘28,因为当在整个32乘32训练图像上移动时,5乘5特征514产生28乘28个唯一位置。然后可以最大池化特征图518以减小它们的大小532,以获得经最大池化的特征图528。例如,最大池化可以将每个特征图划分为预定数目的组,例如,2乘2的相邻点,并且仅保持组中的最大点。这样,图5的示例中,经最大池化的特征图528包括N个14乘14的特征图如530所示。可以使用更高级别的图像特征在多个卷积和最大池化层中重复过程516和532。得到的最终的经最大池化的特征图可以在534中被向量化,以获得全连接层542。在一些备选方案中,全连接层可以被实现为多个层。然后可以将多个全连接层542与训练图像的类标签关联,例如,供应商A544、供应商B546、供应商C548或供应商D550。上述过程表示前向传播560。可以细化初始随机图像特征514,以最小化经由反向传播过程570将训练图像512分类为其正确标签中的任何误差。针对大量训练图像迭代地执行前向传播过程560和反向传播过程570,以获得提供与训练图像的标签一致的最佳分类的共同图像特征。最后,可以通过前向传播560来处理输入图像,以获得输入图像与供应商A、B、C或D中的任何一个相关联的预测概率。因此,基于CNN的图像分类过程500可以被用于实现图2的基于图像的元数据标识建模236。图6示出了可以被用作图2的模糊文本匹配过程240的示例性逻辑和数据流600。示例性的模糊文本匹配过程包括:从输入文本文档640中提取n元632、624和636630,访问具有多个元数据数据项611的元数据数据库510,并且对所提取n元和元数据数据项运行模糊文本匹配算法650,以获得与所提取的n元相匹配的最佳元数据数据项。输入电子文档的n元基本上是:输入电子文档中具有预定义长度的术语。这些术语可以包含:单个词单元unigrams、两个词二元bigrams、三个词三元trigrams或更多。例如,文档的三元可以包括:出现在文档中的所有三个连续的词模式。使用多个连续词的术语来表征输入文档可以帮助降低模糊文本匹配过程600中的假阳性,因此补充和改善而不是降低图2的基于图像的元数据标识过程240的准确性。例如,“Dell”一词可能指向供应商Dell公司,但也可能作为产品名称而不是与元数据类别相关的供应商名称出现在电子文档中。尽管图6的图示仅示出了从输入电子文档640中提取单元、二元和三元,但是可以类似地提取更高级别的n元。可以通过考虑计算要求与建模精度增益之间的折衷来确定要被包括在图6的模糊匹配过程中的n元的级别数。元数据数据库610可以包含由表611表示的元数据数据项。元数据数据项可以按行和列逻辑排列。在一个示例中,行620、622、624、626和628可以表示不同供应商的元数据。列612、614、616和618可以表示不同类型的元数据。备选地,数据列611可以被称为元数据字段。列或字段之一例如,元数据字段612可以表示预定义的元数据类别。这样,图2的输入电子文档将用元数据字段612的元数据数据项之一来标记,例如,供应商A、供应商B、供应商C和供应商D。例如,其他元数据字段可以包括供应商地址字段614、供应商联系人字段616和供应商电话号码字段618。从输入文档640提取的n元632、634和636以及元数据数据项611可以被输入到模糊文本匹配算法650中。在一个实现中,可以针对每个元数据列或字段进行n元和元数据数据项之间的模糊匹配。可以确定每个元数据字段的预定数目的最佳匹配元数据数据项,如660、662、664和666所示。例如,可以标识每个元数据字段中的20个最佳匹配。可以在每个元数据数据项与输入文档的所有提取n元632、634和636之间执行模糊匹配。可以对匹配进行加权,例如,对单元、二元和三元给予不同的权重。例如,相比于双元和单元,可以给予三元更大的权重,并且相比于单元,可以给予双元更高的权重,因为更高等级的n元可以携带更多的句法信息。可以进一步比较来自每个元数据字段的最佳匹配,以提取预定数目的最终匹配670。在该比较过程中可以给予不同的字段不同的权重。例如,相比于电话号码字段618,可以给予地址614更大的权重。在一个示例性实现中,可以确定最终的前三个元数据项。元数据类别字段612中的对应数据项670还可以被标识为最终的最佳匹配元数据类别680。在一些实现中,可以将优选权重给予具有多个最佳匹配数据项的元数据行。可以给出这样的优选权重,因为同一行内的多个匹配数据项指示输入文档包含与元数据数据库的该行相关联的实体的更详细描述,因此该文档可以优选地用这样的实体或元数据类别来标记。上面公开的实现提供了计算技术的改进。例如,可以以字符串数据类型和表示来处理电子文档中的文本数据。本文公开的实现包含:将具有嵌入文本的文档块变换为表示文档块的位图图像的数据矩阵,从而提供通过使用硬件加速的矩阵操作而被更高效地处理的数据结构。数据矩阵还包含嵌入文本的字符串内容之外的信息,其可以经由矩阵数据结构中的数据模式的机器学习来识别。上面的示例性实现有助于自动文档处理、标识和组织,例如发票处理和供应商标识。类似的方法可以用于,例如,递送跟踪例如,通过快递物流服务供应商,以将文档分类为“递送记录”,并从递送记录中提取供应商元数据。作为另一示例,以上实现可以用于保险索赔处理,以将索赔文档分类为不同类型的索赔,例如机动车辆保险索赔、医疗保险索赔等,并仅从医疗索赔例如,医院、诊所和医生元数据信息提取标识例如索赔人元数据,或者仅从机动车辆保险索赔提取标识制造商元数据信息。以下原理可以被广泛地应用于工业和制造环境中:使用成像分类来标识元数据,并使用模糊文本匹配来实现更好的准确性,或在图像分类模型的训练图像不完整时作为补充。例如,在电子组装工厂中识别电子组件的制造商可以依赖于针对一组电子制造商的徽标的图像识别。可以通过从电子组件的图像中提取文本,并且将提取的文本与电子制造商的元数据数据库模糊匹配来进一步补充这种基于图像的识别,该元数据数据库可以比用于基于图像的分类模型的训练图像数据库更全面。因此,仍然可以经由补充的模糊文本匹配过程、以合理的准确度来标识具有不是训练图像的一部分的徽标的电子组件的制造商例如,制造商已经改变到新徽标。虽然上面的公开内容使用基于文本的文档分类和基于图像的元数据标识作为示例,但是级联多个分类或回归模型以简化分类问题和降低计算强度的原理可以广泛地应用于其他场景,在这些其他场景中,涉及大的且多样的特征集和特征空间。上面描述的方法、设备、处理和逻辑可以以很多不同的方式以及硬件和软件的很多不同组合而被实现。例如,所有或部分实现方式可以是包括指令处理器的电路,诸如中央处理单元CPU、微控制器或微处理器;专用集成电路ASIC、可编程逻辑器件PLD或现场可编程门阵列FPGA;或者包括分立逻辑或其他电路组件的电路,包括模拟电路组件、数字电路组件或两者;或者其任何组合。作为示例,电路可以包括分立的互连硬件组件,和或可以在单个集成电路管芯上被组合,分布在多个集成电路管芯中,或者以公共封装件中的多个集成电路管芯的多芯片模块MCM而被实现。电路还可以包括或访问供电路执行的指令。这些指令可以存储在除了暂态信号以外的有形存储介质上,诸如闪存、随机存取存储器RAM、只读存储器ROM、可擦除可编程只读存储器EPROM;或者存储在磁盘或光盘上,诸如光盘只读存储器CDROM、硬盘驱动器HDD或其他磁盘或光盘;或者存储在另一机器可读介质中或上。诸如计算机程序产品等产品可以包括存储介质以及存储在介质中和上的指令,并且指令在由设备中的电路执行时可以引起设备实现在以上描述或在附图中示出的任何处理。这些实现方式可以作为电路分布在多个系统组件之间,诸如在多个处理器和存储器之间,可选地包括多个分布式处理系统。参数、数据库和其他数据结构可以分开存储和管理,可以合并到单个存储器或数据库中,可以以很多不同的方式在逻辑和物理上来组织,并且可以以很多不同的方式而被实现,包括作为数据结构,诸如链表、哈希表、数组、记录、对象或隐式存储机制。程序可以是单个程序的部分例如,子例程、分开的程序,分布在若干存储器和处理器中,或者以很多不同的方式而被实现,诸如在库中,诸如共享库例如,动态链接库DLL。例如,DLL可以存储在由电路执行时执行在以上描述或在附图中示出的任何处理的指令。已经具体地描述了各种实现方式。但是,很多其他实现方式也是可能的。

权利要求:1.一种系统,包括:数据库,包括被组织在元数据字段中的元数据数据元素,其中所述元数据字段至少包括元数据类别字段,所述元数据类别字段包含元数据类别数据元素;存储器,用于存储基于机器学习算法而建立的基于文本的文档分类器模型、元数据类别标识模型和模糊文本匹配器;以及系统电路,与所述数据库和所述存储器通信,所述系统电路被配置为:接收电子文档;响应于使用所述基于文本的文档分类器模型来确定所述电子文档属于预定文档类别集:获得与所述电子文档相对应的图像;使用所述元数据类别标识模型来获得所述图像与所述元数据类别字段的第一元数据类别数据元素的第一关联;使用所述模糊文本匹配器来获得所述电子文档与所述数据库的所述元数据数据元素的子集的第二关联;以及基于所述第一关联和所述第二关联,确定所述第一元数据类别数据元素中的单个元数据类别数据元素和与所述数据库的所述元数据数据元素的所述子集相对应的元数据类别数据元素集,作为针对所述电子文档的标签。2.根据权利要求1所述的系统,其中所述系统电路还被配置为:将所述电子文档转换为对应的文本文档,并且其中所述系统电路被配置为:通过以下来确定所述电子文档属于所述预定文档类别集:将所述对应的文本文档输入到所述基于文本的文档分类器模型中以获得分类;以及确定所述分类在所述预定文档类别集中。3.根据权利要求1所述的系统:其中所述系统电路还被配置为:从与所述电子文档相对应的所述图像中获得感兴趣区域;以及其中所述系统电路被配置为:通过将所述元数据类别标识模型应用到所述感兴趣区域来获得所述第一关联。4.根据权利要求3所述的系统,其中所述感兴趣区域包括所述图像的一部分。5.根据权利要求3所述的系统,其中所述系统电路被配置为:通过以下来从与所述电子文档相对应的所述图像获得所述感兴趣区域:确定所述感兴趣区域相对于所述图像的位置和大小;以及根据所述感兴趣区域的所述位置和所述大小来裁剪和或变形和或重新对准所述图像,以从所述图像中获得所述感兴趣区域。6.根据权利要求3所述的系统,其中所述系统电路被配置为:通过以下从与所述电子文档相对应的所述图像获得所述感兴趣区域:确定所述感兴趣区域相对于所述图像的位置和大小;根据所述感兴趣区域的所述位置和所述大小来裁剪所述图像,以获得经裁剪的图像;以及预处理所述经裁剪的图像,以获得所述感兴趣区域。7.根据权利要求6所述的系统,其中所述感兴趣区域包括像素阵列,并且其中预处理所述经裁剪的图像包括降低像素分辨率和校正偏斜中的至少一个。8.根据权利要求1所述的系统,其中所述系统电路被配置为:使用所述模糊文本匹配器、通过以下来获得所述电子文档与所述数据库的所述元数据数据元素的所述子集的所述第二关联:提取被包含在所述电子文档中的文本的n元集,以表示所述电子文档;以及在所述n元集与所述数据库的所述元数据数据元素之间执行模糊匹配,以标识所述数据库的所述元数据数据元素与所述n元集匹配的所述子集,并且以获得所述第二关联。9.根据权利要求8所述的系统,其中执行模糊匹配包括:在所述n元集与所述数据库的所述元数据数据元素之间执行模糊匹配,以标识所述元数据字段中的每个元数据字段内预定数目的最佳匹配的元数据数据元素,以获得与所述电子文档的所述n元集最匹配的元数据数据元素的集合,并且以获得对应关联;以及通过加权比较与所述n元集最匹配的所述元数据数据元素的集合的对应关联来标识所述元数据数据元素的所述子集。10.根据权利要求8所述的系统,其中所述n元集包括单元集、二元集和三元集。11.根据权利要求10所述的系统,其中在所述n元集与所述数据库的数据项之间执行模糊匹配包括:在所述单元集、所述二元集和所述三元集上放置不同的权重。12.根据权利要求11所述的系统,其中所述三元集相比所述二元集被给予更高的权重,并且所述二元集相比所述单元集被给予更高的权重。13.一种方法,包括:通过具有存储器和系统电路的系统来接收电子文档;响应于使用基于机器算法而被建立并被存储在所述存储器中的、基于文本的文档分类器模型来确定所述电子文档属于预定文档类别集:获得与所述电子文档相对应的图像;通过使用存储在所述存储器中的元数据类别标识模型,获得所述图像与元数据类别集中的第一元数据类别的第一关联,其中所述元数据类别集作为数据元素被存储在所述系统的数据库中的元数据类别字段中,所述数据库包含被组织在元数据字段中的元数据数据元素,所述元数据字段包括所述元数据类别字段;使用被存储在所述存储器中的模糊文本匹配器来获得所述电子文档与所述数据库的所述元数据数据元素的子集的第二关联;以及基于所述第一关联和所述第二关联,确定所述第一元数据类别中的单个元数据类别和与所述数据库的所述元数据数据元素的所述子集相对应的元数据类别集,作为针对所述电子文档的标签。14.根据权利要求13所述的方法,还包括:将所述电子文档转换为对应的文本文档,并且其中通过以下来确定所述电子文档属于所述预定文档类别集:将所述对应的文本文档输入到所述基于文本的文档分类器模型中以获得分类;以及确定所述分类在所述预定文档类别集中。15.根据权利要求13所述的方法,还被配置为:从与所述电子文档相对应的所述图像获得感兴趣区域,并且其中获得所述第一关联包括:将所述元数据类别标识模型应用于所述感兴趣区域。16.根据权利要求15所述的方法,其中所述感兴趣区域包括所述图像的一部分。17.根据权利要求15所述的方法,其中从与所述电子文档相对应的所述图像中获得所述感兴趣区域包括:确定所述感兴趣区域相对于所述图像的位置和大小;以及根据所述感兴趣区域的所述位置和所述大小来裁剪和或变形和或重新对准所述图像,以从所述图像中获得所述感兴趣区域。18.根据权利要求15所述的方法,其中从与所述电子文档相对应的所述图像中获得所述感兴趣区域包括:确定所述感兴趣区域相对于所述图像的位置和大小;根据所述感兴趣区域的所述位置和所述大小来裁剪所述图像,以获得经裁剪的图像;以及预处理所述经裁剪的图像以获得所述感兴趣区域。19.根据权利要求13所述的方法,其中获取所述电子文档与和所述数据库的所述元数据数据元素的所述子集相对应的所述元数据类别集的所述第二关联包括:提取被包含在所述电子文档中的文本的n元集以表示所述电子文档;以及在所述n元集与所述数据库的所述元数据数据元素之间执行模糊匹配,以标识所述数据库的所述元数据数据元素与所述n元集匹配的所述子集,并且以获得所述第二关联。20.根据权利要求19所述的方法,其中执行模糊匹配包括:在所述n元集与所述数据库的所述元数据数据元素之间执行模糊匹配,以标识所述元数据字段中的每个元数据字段内预定数目的最佳匹配的元数据数据元素,以获得与所述电子文档的所述n元集最匹配的元数据数据元素的集合,并且以获得对应关联;以及通过加权比较与所述n元集最匹配的所述元数据数据元素的集合的对应关联来标识所述元数据数据元素的所述子集。

百度查询: 埃森哲环球解决方案有限公司 使用机器学习和模糊匹配自动分层分类文档和标识元数据

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。