首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

用于形式概念分析(FCA)的PARZEN窗特征选择算法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:赫尔实验室有限公司

摘要:描述了一种用于针对形式概念分析FCA的特征选择的系统。将具有特征的一组数据点分成对象类。针对每个对象类,利用高斯函数对所述数据点进行卷积,从而获得针对每个已知对象类的类分布曲线。针对每个类分布曲线,生成二元阵列,二元阵列在所述类分布曲线相对于所有其它类分布曲线最大的数据值的区间上具有一,而其它区间上具有零。针对每个对象类,生成二元类曲线,该二元类曲线指示对于哪个区间,所述已知对象类的性能超过所有其它已知对象类。所述区间关于预定置信度阈值被排序。所述区间的排序被用于在FCA点阵构造中选择从一组数据点中提取哪些特征。

主权项:一种用于针对形式概念分析FCA的特征选择的系统,所述系统包括:一个或更多个处理器,所述一个或更多个处理器具有其上编码有可执行指令的关联存储器,使得当执行所述可执行指令时,所述一个或更多个处理器执行以下操作:将具有特征的一组数据点分成一组已知对象类;针对每个已知对象类,利用高斯函数对所述数据点进行卷积,得到针对每个已知对象类的类分布曲线;针对每个类分布曲线,识别所述类分布曲线相对于所有其它类分布曲线最大的数据值的区间;关于预定置信度阈值对所述区间排序;利用所述区间的所述排序,在FCA点阵构造中选择从所述一组数据点提取哪些特征;以及从所述一组数据点提取所选特征。

全文数据:用于形式概念分析FCA的PARZEN窗特征选择算法[0001]政府许可权[0002]本发明在美国政府合同编号FA8650-13-C7356下由政府支持作出。该政府在本发明中具有特定权利。[0003]相关申请的交叉引用[0004]这是2015年7月23日在美国提交的名为“AGeneralFormalConceptAnalysisFCAFrameworkforClassification”的美国非临时申请No·14807,083的部分继续申请,其全部内容通过引用而并入于此。[0005]这也是2015年7月23日在美国提交的名为“AParzenWindowFeatureSelectionAlgorithmforFormalConceptAnalysisFCA”的美国临时申请Νο·62195,876的非临时专利申请,其全部内容通过引用而并入于此。技术领域[0006]本发明涉及用于针对形式概念分析FCA的特征提取的系统,并且更特别地,涉及用于使用Parzen窗针对FCA的特征提取的系统。背景技术[0007]许多形式的信息可以被描述为一组对象,每个对象具有一组属性和或值。在这些情况下,任何分层结构仍然是隐含的。通常来说,这组对象可以与两个或更多个完全不同的属性域和或值域相关。形式概念分析FCA是推导关于一组对象的偏序的原则性方法,每个对象由一组属性定义。这是数据和知识处理方面的技术,其在数据可视化、数据挖掘、信息检索、以及知识管理方面具有应用(参见并入的参考文献列表,参考文献No.2。组织数据的原理是由对象属性之间的包含关系引起的偏序。另外,FCA容许从结构化数据的规则挖掘。[0008]FCA被广泛应用于数据分析。FCA依靠二元特征,以便构建点阵。存在用于将标量数据转换为二元化格式的技术,但是它们往往导致产生要在点阵构造中有效地使用太多属性。关于标量数据的特征选择通常通过缩放或创建统一箱bin来完成。从FCA中的标量数据中选择特征的现有方法存在盲选策略,其产生太多并且通常没有用的特征。由于基于特征的点阵构造所需的指数增加计算时间,这是有问题的。[0009]因此,仍然需要将FCA中的特征数量减少到最有用,以允许在不削弱FCA的能力的情况下构建更小点阵。发明内容[0010]本发明涉及用于针对形式概念分析FCA的特征提取的系统,并且更特别地,涉及用于利用Parzen窗针对FCA的特征提取的系统。所述系统包括一个或更多个处理器和其上编码有可执行指令的非暂时性计算机可读介质,使得当执行该可执行指令时,所述一个或更多个处理器执行多个操作。所述系统将具有特征的一组数据点分成一组已知对象类。针对每个已知对象类,利用高斯函数对所述数据点进行卷积,从而获得针对每个已知对象类的类分布曲线。针对每个类分布曲线,识别所述类分布曲线相对于所有其它类分布曲线最大的数据值的区间。所述区间关于预定置信度阈值被排序。所述区间的排序被用于在FCA点阵构造中选择从所述一组数据点中提取哪些特征,并且从所述一组数据点中提取所选特征。[0011]在另一方面,所选特征被用于解释神经数据。[0012]在另一方面,所选特征被应用至功能性磁共振成像fMRI反应,以对人的思维过程分类。[0013]在另一方面,所述系统生成包括一和零的二元阵列,所述二元阵列在所述类分布曲线最大的数据的区间上具有一,而在其它区间上具有零。[0014]在另一方面,针对每个已知对象类,生成二元类曲线,该二元类曲线指示对于哪个区间,已知对象类的性能超过所有其它已知对象类。[0015]在另一方面,所述一组数据点包括来自神经传感器的数据。[0016]在另一方面,所述预定置信度阈值被用于消除具有低置信度值的区间。[0017]在另一方面,通过取得在沿着每个区间的每个类分布曲线下面的面积与沿着每个区间的所有其它类分布曲线下面的面积的总和的比率来确定所述区间的排序。[0018]在另一方面,本发明还包括一种用于使处理器执行本文所述操作的方法。[0019]最后,在又一方面,本发明还包括一种计算机程序产品,该计算机程序产品包括:存储在非暂时性计算机可读介质上的计算机可读指令,该计算机可读指令可通过具有处理器的计算机执行,以使所述处理器执行本文所述操作。附图说明[0020]本专利的文件或专利申请公开出版物包含所执行的至少一个彩色附图。具有彩色附图的该专利的副本或专利申请公开出版物在请求并支付必需费用时由专利局提供。[0021]根据下面结合参照附图对本发明的各个方面的详细描述,本发明的目的、特征以及优点将更清楚,其中:[0022]图1是示出根据本发明的实施方式的用于针对形式概念分析FCA的特征提取的系统的组件的框图;[0023]图2是根据本发明的实施方式的计算机程序产品的示图;[0024]图3是根据本发明的实施方式的第一背景context表的示图:[0025]图4A是根据本发明的实施方式的第二背景表的示图:[0026]图4B是根据本发明的实施方式的由第二背景表中的数据得到的点阵的示图;[0027]图5是根据本发明的实施方式的针对FCA的特征提取的处理流程的示图:[0028]图6是根据本发明的实施方式的与Parzen窗相比使用统一箱的高分类标准所需的点阵节点数的增长的示图;[0029]图7是根据本发明的实施方式的与Parzen窗相比使用统一箱的高分类标准所需的点阵边缘数的增长的示图;[0030]图8是根据本发明的实施方式的作为阈值和Parzen窗尺寸σ的函数的分类准确度的示图;[0031]图9是根据本发明的实施方式的作为阈值和Parzen窗尺寸σ的函数构建的点阵节点数的示图;[0032]图IOA是根据本发明的实施方式的类分布曲线的示图;[0033]图IOB是根据本发明的实施方式的针对每个对象类的单独二元类曲线的示图;[0034]图11是根据本发明的实施方式的类分布曲线的置信度值的示图;以及[0035]图12是根据本发明的实施方式的记录神经反应和神经反应的FCA分类的示图。具体实施方式[0036]本发明涉及用于针对形式概念分析FCA的特征提取的系统,并且更特别地,涉及用于利用Parzen窗针对FCA的特征提取的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的背景中。所讨论的应用是用于通过利用本发明中的特征提取方法构建点阵来使用FCA分析响应于不同刺激的大脑活动。各种修改例以及不同应用方面的多种用途对于本领域技术人员来说是显而易见的,并且本文定义的一般原理可以被应用于广泛方面。因此,本发明不旨在限于所呈现的方面,而是符合与本文所公开原理和新颖特征相一致的最广泛范围。[0037]在下面的详细描述中,阐述了许多具体细节,以便提供对本发明的更彻底理解。然而,本领域技术人员应当明白,本发明可以在不必受限于这些具体细节的情况下来实践。在其它情况下,公知结构和设备以框图形式而不是详细地被示出,以避免模糊本发明。[0038]读者的注意力放在与本说明书同时提交的所有文件和文档,并且该文件和文档可以通过本说明书开放以供公众查阅,所有这些文件和文档的内容通过引用并入于此。本说明书中公开的所有功能包括任何所附权利要求、摘要、以及附图)可以用服务于相同、等同或相似目的的另选特征来代替,除非另外加以明确规定。因此,除非另外加以明确规定,所公开的每个特征仅是通用系列的等同或相似特征中的一个示例。[0039]而且,权利要求书中没有明确陈述用于执行指定功能的“装置”或用于执行特定功能的“步骤”的任何元素不被解释为如在35U.S.C.第112章第6段中指定的“装置”或“步骤”条款。特别地,在本文的权利要求中使用“……的步骤”或“……的动作”不旨在援引35U.S.C.112第6段的规定。[0040]请注意,若使用的话,标记左、右、前、后、顶、底、正、反、顺时针以及逆时针都仅出于方便目的而加以使用,并不旨在暗示任何特定的固定方向。相反的是,它们被用于反映物体的各个部分之间的相对位置和或方向。同样地,当本发明改变时,上述标记可能会改变它们的取向。[0041]在详细描述本发明之前,首先提供了如在本说明书中使用的引用参考文献列表。接下来,提供对本发明的各个主要方面的描述。接着是提供本发明的概述的介绍。最后,提供本发明的具体细节以取得对具体方面的理解。[0042]1所并入的参考文献的列表[0043]贯穿本申请引用且并入以下参考文献。为了清楚和方便起见,这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入于此,就像完全包括在此一样。这些参考文献通过参照如下对应文献参考号而在本申请中加以引用,如下:[0044]I.V.Arulmozhi.ClassificationtaskbyusingMatlabNeuralNetworkToolBox〜〜Abeginners·InternatioualJournalofWisdomBasedComputing、2011·[0045]2.G.RomanoC.Carpineto.ConceptDataAnalysis:TheoryandApplications.Wiley,Chapter2、2004.[0046]3Richard.Duda,PeterE.Hart,andDavidG.Stork.PatternClassification.Wiley-Interscience,2ndedition,Chapter4,Section3,2001.[0047]4.B.GanterandR.ffi11e.FormaIConceptAnalysis:MathematicalFoundations、Springer—Verlag,Chapter1,1998.[0048]5.M.Swaiu,S.K.Dash,S.Dash,andA.Mohapatra.AnapproachforIRISplantclassificationusiingneuralnetwork.InternationalJournalofSoftComputing,2012.[0049]6.K.BacheandM.Lichman.UCImachinelearningrepository.UniversityofCalifornia,Irvine,SchoolofInfformationandComputerSciences,2013,availableathtp:archive.ics.uci.edumldatasetsIristakenonJuly17,2015.[0050]⑵主要方面[0051]各个实施方式具有三个“主要”方面。第一方面是一种用于针对形式概念分析FCA的Parzen窗特征选择的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的装置中,如机器人或其它装置。第二个主要方面是通常采用软件的形式的一种方法,其利用数据处理系统计算机)进行操作。第三个主要方面是计算机程序产品。该计算机程序产品通常表示存储在诸如光学存储装置例如,光盘CD或数字通用盘DVD或诸如软盘或磁带的磁存储装置的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制示例包括硬盘、只读存储器ROM、以及闪存型存储器。这些方面将在下面进行更详细描述。[0052]图1中提供了示出本发明的系统(S卩,计算机系统100的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作、和或功能。在一个方面,本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令例如,软件程序)。在执行时,该指令使计算机系统100执行特定动作并展现特定行为,如本文所描述的。[0053]计算机系统100可以包括被配置成传输信息的地址数据总线102。另外,一个或更多个数据处理单元诸如处理器104或多个处理器与地址数据总线102耦接。处理器104被配置成处理信息和指令。在一方面,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器诸如并行处理器或现场可编程门阵列。[0054]计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址数据总线102耦接的易失性存储器单元106例如,随机存取存储器(“RAM”)、静态RAM、动态RAM等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址数据总线102耦接的非易失性存储器单元108例如,只读存储器(“ROM”)、可编程ROM“PR0M”)、可擦除可编程ROM“EPR0M”)、电可擦除可编程ROM“EEPR0M”)、闪存等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以执行从诸如“云”计算中的在线数据存储单元检索的指令。在一方面,计算机系统100还可以包括与地址数据总线102耦接的一个或更多个接口,诸如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线例如,串行电缆、调制解调器、网络适配器等)和或无线(例如,无线调制解调器、无线网络适配器等)通信技术。[0055]在一个方面,计算机系统100可以包括与地址数据总线102耦接的输入装置112中的一个或更多个,其中,输入装置112被配置成将信息和命令选择传输至处理器100。根据一个方面,输入装置112包括字母数字输入装置诸如键盘),其可以包括字母数字键和或功能键。另选地或者另外地,输入装置112可以包括除字母数字输入装置之外的输入装置。例如,输入装置112可以包括一个或更多个传感器,诸如用于视频或静止图像的摄像机、麦克风、或神经传感器。其它示例输入装置112可以包括加速度计、GPS传感器、或陀螺仪。[0056]在一方面,计算机系统100还可以包括一个或更多个可选计算机可用数据存储装置,诸如与地址数据总线102耦接的存储装置116。存储装置116被配置成存储信息和或计算机可执行指令。在一个方面,存储装置116是诸如磁或光盘驱动器(例如,硬盘驱动器“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”)的存储装置。依据一个方面,显示装置118与地址数据总线102耦接,其中,显示装置118被配置成显示视频和或图形。在一方面,显示装置118可以包括:阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器、或适于显示视频和或图形图像以及用户可识别的字母数字字符的任何其它显示装置。[0057]本文所呈现的计算机系统100是根据一方面的示例计算环境。然而,计算机系统100的非限制示例并不严格限于作为计算机系统。例如,一个方面提供了计算机系统100表示可以根据本文所述的各个方面使用的一类数据处理分析。此外,还可以实现其它计算系统。实际上,本技术的精神和范围不限于任何单一数据处理环境。因此,在一方面,使用通过计算机执行的诸如程序模块的计算机可执行指令来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中,这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、和或数据结构。另外,一方面提供了本技术的一个或更多个方面通过利用一个或更多个分布式计算环境来实现,诸如任务由通过通信网络链接的远程处理装置执行,或者诸如各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中。[0058]图2中示出了具体实现本发明的计算机程序产品(S卩,存储装置的示图。该计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而,如先前提到,该计算机程序产品通常表示存储在任何可兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作,并且可以表示整个程序的片段或单个单独软件模块。“指令”的非限制性示例包括计算机程序代码源或目标代码)和“硬编码”电子装置(S卩,编码到计算机芯片中的计算机操作)。该“指令”被存储在任何非暂时性计算机可读介质上,诸如存储在计算机的存储器中或软盘、CD-ROM、以及闪存驱动器上。无论如何,这些指令被编码在非暂时性计算机可读介质上。[0059]⑶介绍[0060]形式概念分析FCA是从对象及其特性或属性的集合推导概念层次或形式本体的原则方法。其是基于由属性的集合包含定义的排序关系来创建对象的偏序。从形式上看,背景=G,M,I由两个集合G和M以及它们之间的关系I称作关联关系)组成。G的元素被称作对象,而M的元素被称作属性参见参考文献No.4。如果对象geG具有属性meM,则写成glm或g,mei。背景可以用交叉表或背景表来表示,其是矩形表,其中行的开头是对象,而列的开头是属性,图3中例示了其示例。行g与列m的相交处的“X”意指对象g具有属性m。对于对象的集合可以定义。换言之,对于对象A的某一子集,A7表示A中的所有对象共有的一组属性。对应地,可以定夕。换言之,对于属性B的某一子集,B表示具有B中的所有属性的对象集合。[0061]现在可以定义形式概念。背景(G,M,I的形式概念是一对(A,B,其中,〆=B,以及V=Ac3A称作外延extent,而B称作概念A,B的内涵(intent。G,M,I指示背景G,M,I的所有概念的集合。在行和列的任意重新布置之后,在背景表中用最大连续块“X”来表示概念,如图3所示。在参考文献No.2和No.4中描述了用于确定概念点阵的算法。数学上,概念点阵的关键方面是概念点阵是完整点阵,其中,下确界和上确界分别由下式给出:[0064]参照图3,对象例如,狮子具有来自与“X”相对应的列的属性例如,捕食、哺乳动物)。连续灰色块300在行和列的任何重新布置下最大,并且形成形式概念。上确界被称作保联join并被写成zVy或者有时写成VS集合S的保联)。下确界被称作保交meet,并且写成zAy或者有时写成ΛS集合S的保交)。在参考文献No.4中给出了对形式概念分析的广泛描述。[0065]3.1背景和概念点阵的例子[0066]概念点阵是如上所述由(G,M,I表示的数学对象。概念点阵可以通过Hasse图可视化,有向非循环图,其中,节点表示概念,而线表示节点之间的包含关系。在形式概念分析的情况下,Hasse图具有表示所有对象(由G给出)的单个顶部节点和表示所有属性(由M给出)的单个底部节点。其间的所有节点表示由对象和属性的一些子集组成的各种概念。两个节点之间的线表示次序信息。上面的节点被认为大于下面的节点。在Hasse图中,具有属性集合m和对象集合g的节点η具有以下特性:[0067]·mzg,是8中的每个对象共享的所有属性的集合。[0068]·g=!!^,是具有m中的所有属性的所有对象的集合。[0069]·η的每个子节点在其内涵中具有全部m。[0070]·η的每个父节点在其外延中具有全部g。[0071]由此,点阵nk内的节点的排序意味着η的外延包含在k的外延中,并且等同地,η的内涵包含在k的内涵中。节点η的上集upset包括该点阵内的所有其祖先节点。η的下集downset由该点阵内的所有其子节点组成。[0072]图4A和图4B分别示出由形式内容引起的概念点阵的背景表和对应Hasse图。对象是九大行星,并且属性是诸如大小、到太阳的距离、以及有无卫星的特性。每个节点(由诸如元素400和402的圆圈表示对应于概念,其对象包括来自上方连接的节点的所有对象的并集union,而属性包括来自下方连接的所有节点的所有属性的交集(intersection。最终,最顶端节点404包含所有对象G和现在属性。对应地,最底部节点406包含所有属性M并且没有对象。[0073]⑷本发明的具体详情[0074]在根据本发明的一些实施方式的系统中,针对来自利用fMRI功能性磁共振成像)测量的BOLD血氧水平依赖反应的标量数据执行特征选择。fMRI是利用MRI技术的功能神经成像过程,其通过检测与血流有关的变化来测量大脑活动。这种技术依赖于脑血流和神经元激活相结合的事实。当大脑的一个区域在使用中时,流向该区域的血流也增加。响应于刺激,fMRI通常提供数据集,该数据集可以包括来自20k-100k其中,k表示“千”)体素的脑活动从BOLD信号推断)的样本。根据该高维标量数据的特征选择被执行,以从体素反应中的噪声中提取信号。然后可以利用诸如FCA的方法来进一步分析所选特征,以了解他们的结构和对响应于刺激(以下称为对象类的活动的贡献,并进一步用于将大脑活动解码到刺激维度。[0075]图5是示出根据本发明的实施方式的针对FCA的Parzen窗特征选择的流程图。在第一操作500中,将数据集分成已知对象类。可以分成已知对象类的数据集的非限制性示例包括fMRIBOLD反应、以及来自环境中的传感器的数据诸如来自摄像机、雷达、以及激光雷达LIDAR的成像数据)。在第二操作502中,为每个对象类生成类分布曲线。其后,在第三操作504中,为每个对象类生成二元阵列。在第四操作506中,根据该二元阵列生成二元类曲线。接下来,在第五操作508中,关于置信度阈值对区间进行排序。最后,在第五操作510中,该排序被用于为FCA点阵构造选择从数据集中提取的特征。下面对这些操作中的每一个进行更详细描述。[0076]4.1特征选择[0077]在确定针对标量数据值的恰当箱时,使用Parzen窗密度估计参见参考文献No.3,用于Parzen窗密度估计的描述)。根据本发明的一些实施方式的方法包括将数据点分成单独的已知对象类。针对每个类,利用高斯函数对数据点进行卷积。所得到的曲线被称作类分布曲线,其在图IOA中示出。针对每个类,将对应类分布曲线与其它类分布曲线进行比较。创建二元阵列,该二元阵列包括类分布曲线最大相对于所有其它类分布曲线)的区间上的一和其它区间上的零。这是二元类曲线,其指示该类相对于所有其它类具有包含在区间中的最高概率的数据值的那些区间。在图IOB中示出了每个对象类的单独二元类曲线的示图。然后将这些区间关于它们的置信度进行排序,其中通过给定类在该区间中的包含与所有类的包含的总和的比率来计算置信度。图11中示出了图IOA的示例的置信度值。[0078]从形式上看,算法ParzenFeatureSelection如下。让Gaussμ是具有均值μ和标准差σ的高斯。C。被用于对象〇的类曲线,并且所得到的箱是b。。对应置信度值是c。。输出是bins其是区间的开始值和结束值的列表和confs其是针对每个区间的置信度的列表)。[0079]要求:X、来自输入诸如fMRIBOLD体素活动)的标量数据的矢量,obj对应对象类,thresh置信度截止阈值[0081]这种置信度的排序可以通过多种方式来完成,下面描述了其非限制性示例。通过取得在沿着该区间的类分布曲线下面的面积与沿着该区间的所有其它类分布曲线的面积的总和的比率来建立等级rank。在我们的应用中,fMRI实验重复测量大脑活动作为响应于不同刺激类例如,类A和B的体素值,以生成多个测量样本。例如,如果输入数据体素值对于10个不同样本达到3.7,并且其中7个样本与A类的元素相关联,而其中3个样本是其它类,那么如果在另一样本中观察到值3.7,则可以70%确信其是类A的实例。使用预定阈值来丢弃具有低置信度值的区间。根据数据统计样本数、样本值分布),用于置信度水平计算的其它方法可以证明是有用的。以下是置信度水平计算的非限制性示例:[0082]•合并箱的大小,向更大的箱赋予更高置信度。[0083]•把箱分成多段,其中,中心段被赋予更高置信度,而边缘段被赋予更低置信度。[0084]•使用不同非线性置信度计算。例如,使用Fisher判别式。考虑来自体素的针对每个类的反应样本的均值和离散度scatter。定义针对类A的均值im和离散度反应sa,其中,对于体素对类A的Xi反应,离散度由确定,并且类似地,定义其余HlR的均值,并且其余SR的离散度被定义用于其它类的所有反应。给出这些定义,Fisher判别式被定义为[0085]体素的稳定性然后可以被定义为max#A。该测量的优点是,其最大化类A的均值与其余值之间的距离,同时最小化对类A的反应与对其它类的反应的方差。[0086]4.2实验性研究[0087]对两个数据集进行研究以用于分类。首先是在加利福尼亚大学的IrvineUCI机器学习库中可获得的鸢尾花(Iris数据集参见参考文献No.7,用于鸢尾花数据集)。在这个问题上,目标是基于“萼片长度”、“萼片宽度”、“花瓣长度”、以及“花瓣宽度”来对鸢尾花类型进行分类。第二个数据集由fMRIBOLD反应组成。[0088]4.2.1鸢尾花[0089]鸢尾花数据集的分类利用在美国非临时申请No.14807083中描述的算法来执行,其如在此全面阐述地通过引用而并入于此。利用本发明,与先前技术相比,可以用更小点阵对数据集进行分类,诸如数据的统一装箱binning,从而使分类更快速。[0090]图6和图7举例说明了根据本发明各种实施方式的与Parzen窗通常称为高斯箱,由菱形602表示相比,利用统一箱(由矩形600表示)的高分类标准所需的增长。应注意到,利用少于50个概念或节点)的点阵或节点)(如图6所示和少于100个边缘如图7所示来实现90%的准确度。[0091]另外,还进行了一项研究,看是否可以提高分类准确性,同时仍保持小点阵结构。图8和图9中采用三维3D标绘图的形式示出了该结果,其中,颜色值对应于每个标绘图中的z轴值。蓝色表示z轴上的最小值例如,对于%准确度来说,图8中的z轴最小值为30,而红色表示最大值。图8例示了作为阈值X轴,标记为置信度阈值和Parzen窗大小σy轴,标记为高斯Sigma的函数的分类准确度z轴和颜色,标记为%准确度)。[0092]图9例示了作为阈值X轴,标记为置信度阈值和Parzen窗大小〇y轴,标记为高斯Sigma的函数构建的点阵节点数量z轴和颜色,标记为#节点)。每个标绘图中的点彼此对应,因而具有X=〇.7-0.8置信度阈值和y=0.02-0.06高斯Sigma的区域对应于z=97%图7中的%准确度和z=50图9中的#节点)。如图所示,结果表明在需要少于50个节点的情况下能够实现97%的准确度。这比针对该数据集公布的目前发展水平的分类技术要好参见参考文献No·1和No·5。[0093]4.2.2功能性磁共振成像fMRI血氧水平依赖BOLD反应[0094]4.2.2.1体素装箱[0095]fMRIBOLD反应被用于以非侵入方式表示大脑内的神经活动水平。呈现各种刺激例如,口头词句、书面文字、图像),表示语义或概念性输入。在刺激呈现期间,记录大脑的反应。减去无活动的基线,并且提取这种中性脑状态与响应于该刺激的大脑状态之间的差异。[0096]这组刺激无论是句子中的单个词语、口头词句、图像等表示形式概念分析FCA的对象,并且针对大脑内的体素的所提取fMRIBOLD反应表示对象的属性。接着,可以在努力对人的思维过程分类时,将FCA分类在美国非临时申请No.14807,083中描述应用至fMRIBOLD反应。为此,采用经由本发明的Parzen窗装箱算法的特征提取。[0097]图12例示了人类受试者1200被呈现有一组刺激1202例如,口头词句、书面文字、特性)。在呈现该组刺激1202期间,响应于该组刺激1202记录fMRIBOLD反应1204。因为该组刺激1202表示FCA的对象,并且所提取的fMRIBOLD反应1204表示对象的属性,所以接着可以在努力对人的思维过程1208分类时,将FCA分类1206应用至fMRIBOLD反应1204。[0098]在此描述的本发明具有多种应用。例如,如上所述,FCA分类有助于针对所呈现刺激的fMRIBOLD反应的分类。而且,根据本发明的一些实施方式的方法可以被用于对生产线或电路设计内的低效率分类,这是因为许多这样的低效率基于依从关系,从而获得在生产过程中的隐藏结构。

权利要求:1.一种用于针对形式概念分析FCA的特征选择的系统,所述系统包括:一个或更多个处理器,所述一个或更多个处理器具有其上编码有可执行指令的关联存储器,使得当执行所述可执行指令时,所述一个或更多个处理器执行以下操作:将具有特征的一组数据点分成一组已知对象类;针对每个已知对象类,利用高斯函数对所述数据点进行卷积,得到针对每个已知对象类的类分布曲线;针对每个类分布曲线,识别所述类分布曲线相对于所有其它类分布曲线最大的数据值的区间;关于预定置信度阈值对所述区间排序;利用所述区间的所述排序,在FCA点阵构造中选择从所述一组数据点提取哪些特征;以及从所述一组数据点提取所选特征。2.根据权利要求1所述的系统,其中,所选特征被用于解释神经数据。3.根据权利要求2所述的系统,其中,所选特征被应用至功能性磁共振成像fMRI反应,以对人的思维过程进行分类。4.根据权利要求1所述的系统,其中,所述一个或更多个处理器还执行生成包括一和零的二元阵列的操作,所述二元阵列在所述类分布曲线最大的数据的区间上具有一,而在其它区间上具有零。5.根据权利要求4所述的系统,其中,针对每个已知对象类,生成二元类曲线,所述二元类曲线指示对于哪个区间,所述已知对象类的性能超过所有其它已知对象类。6.根据权利要求1所述的系统,其中,所述一组数据点包括来自神经传感器的数据。7.根据权利要求1所述的系统,其中,所述预定置信度阈值被用于消除具有低置信度值的区间。8.根据权利要求1所述的系统,其中,通过取得沿着每个区间的每个类分布曲线下面的面积与沿着每个区间的所有其它类分布曲线下面的面积的总和的比率来确定所述区间的所述排序。9.一种用于针对形式概念分析FCA的特征选择的计算机实现方法,所述方法包括以下步骤:使一个或更多个处理器执行存储在非暂时性存储器上的指令的动作,使得在执行时,所述一个或更多个处理器执行以下操作:将具有特征的一组数据点分成一组已知对象类;针对每个已知对象类,利用高斯函数对所述数据点进行卷积,得到针对每个已知对象类的类分布曲线;针对每个类分布曲线,识别所述类分布曲线相对于所有其它类分布曲线最大的数据值的区间;关于预定置信度阈值对所述区间排序;利用所述区间的所述排序,在FCA点阵构造中选择从所述一组数据点提取哪些特征;以及从所述一组数据点提取所选特征。10.根据权利要求9所述的方法,其中,所选特征被用于解释神经数据。11.根据权利要求10所述的方法,其中,所选特征被应用至功能性磁共振成像fMRI反应,以对人的思维过程进行分类。12.根据权利要求9所述的方法,其中,所述一个或更多个处理器还执行生成包括一和零的二元阵列的操作,所述二元阵列在所述类分布曲线最大的数据的区间上具有一,而在其它区间上具有零。13.根据权利要求12所述的方法,其中,针对每个已知对象类,生成二元类曲线,所述二元类曲线指示对于哪个区间,所述已知对象类的性能超过所有其它已知对象类。14.根据权利要求9所述的方法,其中,所述预定置信度阈值被用于消除具有低置信度值的区间。15.—种用于针对形式概念分析FCA的特征选择的计算机程序产品,所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令,所述计算机可读指令能够通过具有一个或更多个处理器的计算机执行,以使所述处理器执行以下操作:将具有特征的一组数据点分成一组已知对象类;针对每个已知对象类,利用高斯函数对所述数据点进行卷积,得到针对每个已知对象类的类分布曲线;针对每个类分布曲线,识别所述类分布曲线相对于所有其它类分布曲线最大的数据值的区间;关于预定置信度阈值对所述区间排序;利用所述区间的所述排序,在FCA点阵构造中选择从所述一组数据点提取哪些特征;以及从所述一组数据点提取所选特征。16.根据权利要求15所述的计算机程序产品,其中,所选特征被用于解释神经数据。17.根据权利要求16所述的计算机程序产品,其中,所选特征被应用至功能性磁共振成像fMRI反应,以对人的思维过程分类。18.根据权利要求15所述的计算机程序产品,所述计算机程序产品还包括用于使所述一个或更多个处理器执行生成包括一和零的二元阵列的操作的指令,所述二元阵列在所述类分布曲线最大的数据的区间上具有一,而在其它区间上具有零。19.根据权利要求18所述的计算机程序产品,其中,针对每个已知对象类,生成二元类曲线,所述二元类曲线指示对于哪个区域,所述已知对象类的性能超过所有其它已知对象类。20.根据权利要求15所述的计算机程序产品,其中,所述预定置信度阈值被用于消除具有低置信度值的区间。

百度查询: 赫尔实验室有限公司 用于形式概念分析(FCA)的PARZEN窗特征选择算法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。