首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种Bagging_BSJ短文本分类方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:天津理工大学

摘要:一种Bagging_BSJ短文本分类方法。短文本具有高稀疏性,实时性,不规范性等特点,已有的传统文本分类算法应用于短文本分类时,受奇异数据影响较大,难以取得较好的效果。本发明方法针对短文本的高稀疏性,实时性等特点,提出了基于集成思想的短文本分类方法。将该方法采用Bagging集成算法思想,对短文本进行语义特征扩展,并结合贝叶斯算法,支持向量机算法以及J48算法,对语义特征扩展后的短文本进行分类,得到了更好的分类效果。本文提出的Bagging_BSJ方法其准确率提高了12%,召回率提高了28%,F值提高了20%。

主权项:一种Bagging_BSJ短文本分类方法,其特征在于该方法主要包括如下关键步骤:第1、基于维基百科知识库的WLA短文本语义特征扩展;第1.1、相关特征抽取,对于给定特征词项,通过消歧义和重定向将该特征词项映射到对应的维基百科页面中,提取页面文本信息,并对这些文本信息进行去噪处理,得到一组由词项组成的特征向量,该特征向量中的元素为特征词项的备选扩展词项;第1.2、语义关系量化,通过WLAWikipedia Links and Abstract算法进行语义关系计算,定量描述给定特征词项与第1.1步得到的备选扩展词项之间的语义关联程度;第1.3、经过相关特征抽取、词项间语义关系量化之后,为每个给定的主题特征词项构建相应的特征扩展词项向量Ct{c1,r1,c2,r2,…,ck,rk},其中ci、i=1,2,…,k,是与主题特征词项t相关的备选扩展词项,ri、i=1,2,…,k,表示ci与t之间的语义相似度,将这些词项向量作为下面短文本分类时的样本;第2、基于集成思想的Bagging_BSJ短文本分类算法;第2.1、假设训练集S={x1,y1,x2,y2,…,xm,yn}中含有m篇文章n种类别,其中xi为训练样本,yj为xi所对应的类别标签;第2.2、利用有放回的抽样技术分别从训练集S中抽取Z1个、Z2个、Z3个训练样本子集,每个子集中均含有g个样本;第2.3、以朴素贝叶斯为基分类器的Bagging分类器对前Z1个子集进行训练,训练出的模型记为类似的,中间的Z2个子集和最后的Z3个子集分别以支持向量机和J48为基分类器进行训练,得到的分类模型分别记为和用该方法训练得到Z1+Z2+Z3个分类器;第2.4、分类过程是将2.3训练得到的分类模型Hi、i=1,2,…,Z1+Z2+Z3,均作用于待分类样本,并借助于投票算法对分类结果进行集成处理,从而判断出新样本类别;即:

全文数据:一种Bagging_BSJ短文本分类方法技术领域[0001]本发明属于计算机应用与自然语言处理结合的技术领域。背景技术[0002]短文本分类技术是指对字数在160字左右,具有稀疏特性的文本进行分类的技术。通常情况下,短文本信息具有实时性强、语言简洁、噪音多等特点。对于稀疏性极强的短文本,使用传统文本分类方法,通过计算文档内词项出现的频率和文档间公共词项的数量来评判文档间相似性,其准确率不高。因此,针对短文本独有的实时性强、语言简洁、噪音多的特点,提高分类算法的准确率,召回率会有重要的应用。[0003]目前,针对短文本比较常用的分类算法可以分为两大类:一类是基于某种规则改进的分类过程;另一类是基于外部语义信息扩充短文本的内容,进而提高短文本的分类效果。[0004]基于规则改进的方法主要是对短文本数据集进行处理,借助于特征提取、文本表示、分类器构建等多个环节提出的创新改进方法。但是,在短文本分类中,由于数据稀疏,基于本地特征的分类器在表达短文本时普遍遇到语义鸿沟的问题,不能有效地区别不同短文本中的语义信息。[0005]基于语义信息扩充短文本的分类算法主要是借助于文本语境信息或外部语义知识库,利用某种规则丰富短文本的表述内容。这种算法从一定程度上减轻了数据稀疏带来的影响,但是当训练数据量增大时,辅助数据带来的提高逐渐减弱,分类效果会下降。针对短文本的特征稀疏性,本发明将维基百科作为外部语义知识库进行了短文本特征的扩展。[0006]维基百科中存在着大量不断的增长的概念,这对于短文本的内容扩充提供了非常有效的平台。语义相似度计算是一种基于维基百科文本和链接结构信息的语义关系量化模型,该模型通过计算备选扩展特征与主题特征之间的语义相似度,选取相似度较高的特征作为扩展特征,上述过程称为语义扩展。[0007]维基扩展短文本特征的主要过程如下:(1将给定的短文本数据进行预处理后,得到对应的词项向量;(2将向量中的每一个特征词项称为主题特征词项都映射到维基百科所对应的主题页面中,获取主题页面内摘要段的文本信息,并对获得的文本信息进行分词、去噪的预处理,以得到每个主题特征词项的维基扩展特征向量;(3通过WLAWikipediaLinksandAbstract算法进行语义关系量化计算,S卩定量描述给定词项与其备选扩展词项之间的语义关联程度。由于扩展词表中的备选特征扩展词项与主题词项之间的关联程度不同,则它们对主体特征语义信息补充的能力就不相同。这样就定量描述了给定特征词项与第1.1步得到的备选扩展词项之间的语义关联程度;⑷将该短文本所有主题特征扩展词项组合、统计,得到的向量即为该短文本基于维基百科文本信息扩展后的特征向量。[0008]在对短文本数据集进行处理中,经典的文本分类模型有朴素贝叶斯NBNaiveBayesian,支持向量机SVMSupportVectorMachine和决策树J48算法。朴素贝叶斯NB模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。NB假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NB模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NB模型的分类效率比不上决策树模型。而在属性相关性较小时,NB模型的性能最为良好。支持向量机算法SVM是一个有监督的学习模型,通常用来进行模式识别、分类、以及回归分析。决策树J48算法,是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。上述研究所提出的算法存在很多缺陷,对短文本处理效果较差,如短文本进行维基扩展后得到的特征向量,在进行分类时可能导致维数灾难问题。单一分类器不能取得较好的分类效果,如朴素贝叶斯算法的词项独立性差,J48分类算法受奇异数据影响较大。我们采用集成学习的算法解决上述问题。[0009]集成学习算法的基本思路是:在对新的实例信息进行分类的时候,把若干个单独训练的分类器集成起来,将这些单个分类器的分类结果以某种权值相结合,作为最终的集成分类结果。由相关资料表明,集成分类器的性能比单个分类器的分类效果更好。[0010]目前,集成学习分类算法主要分为两类:一种是以Bagging算法为代表的并行生成算法,它要求个体分类器之间的依赖关系相对较弱;另一种是以Boosting算法为代表的串行生成算法,这种算法个体之间要有较强的依赖关系。Boosting算法在实际应用中存在过拟合(overfitting问题,导致其分类效果弱于单个分类器的分类效果。本发明采用Bagging算法的思想,S卩:给定一个训练集和一组弱分类器,对训练集有放回的抽取M个样本组成一训练子集,抽取N次得到N个训练子集。通过这N个训练子集训练N个分类器,即可得到N个预测函数序列,然后用对样本集进行预测并通过多数投票机制得到最后的预测结果。[0011]召回率RecallRate,也叫查全率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;准确率是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率。普遍表示为:查准率=检索出的相关信息量检索出的信息总量*100%。召回率Recall和准确率Precise是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。F值是查准率准确率和查全率召回率两指标的综合,是一种综合指标,在评价分类效果优劣等方面,比单独使用准确率或者召回率更具有说服力。在本文中我们使用Fl值即Fe中β=1作为综合评价指标。发明内容[0012]本发明目的是解决短文本分类准确率低的问题,提供一种Bagging_BSJ短文本分类方法,以便提高短文本分类的准确率,召回率和F值。[0013]本发明针对短文本的高稀疏性,实时性和不规范性等特点,利用维基百科作为知识库,提出对短文本进行WLA语义扩展,在贝叶斯算法,支持向量机算法和J48算法的基础上,结合Bagging集成算法思想,提出了Bagging_BSJ集成短文本分类算法。将该方法应用于短文本分类中,对短文本进行语义特征扩展,对语义特征扩展后的短文本,利用Bagging_BSJ算法进行分类,得到了比传统方法更好的分类准确率,召回率和F值。[0014]本发明的技术方案[0015]一种Bagging_BSJ短文本分类方法,该方法主要包括如下关键步骤:[0016]第I、基于维基特征的WLA短文本语义特征扩展;[0017]第1.1、特征抽取。对于给定特征词项,通过消除歧义、重定向技术将该特征词项映射到对应的维基百科页面中,提取页面文本信息,并对这些文本信息进行分词,除停用词等去噪处理,得到一组由词项组成的特征向量,该特征向量中的元素为特征词项的备选扩展词项;[0018]第1.2、语义关系量化。通过我们提出的WLAWikipediaLinksandAbstract算法进行语义关系计算,定量描述给定特征词项与第1.1步得到的备选扩展词项之间的语义关联程度;[0019]第1.3、特征扩展集合构建。经过相关特征抽取、词项语义关系量化之后,为每一个给定的特征词项构建相应特征扩展词项向量^{01,1'1,^2^2,一,(0^1〇},其中^、1=1,2,···,k,是与主题特征词项t相关的备选扩展词项,ri、i=l,2,…,k,表示Ci与t之间的语义相似度,将这些词项向量作为下面短文本分类时的样本。[0020]第2、基于集成思想的Bagging_BSJ短文本分类算法;[0021]第2.1、训练集S={xi,yi,(X2,y2,…,(xm,yn}中含有m篇文章η种类别,其中Xi为训练样本,^为^所对应的类别标签;[0022]第2.2、利用有放回的抽样技术从训练集S中分别抽取Z1个、Z2个、Z3个训练样本子集,每个子集中均含有g个样本;[0023]第2.3、分别用朴素贝叶斯为基分类器的Bagging分类器对前Z1个子集进行训练,训练出的模型记为;类似的,中间的z2f子集和最后的Z3个子集分别以支持向量机和J48为基分类器进行训练,得到的分类模型分别记为^和,用该方法训练得到+Z2+Z3个分类器;[0024]第2.4、分类过程是将2.3训练得到的分类模型Hi、i=1,2,…,Zi+Z2+Z3,均作用于待分类样本(即新样本数据),并借助于投票算法对分类结果进行集成处理,从而判断出新样本类别;即:[0025]其中,第1.2步语义关系量化中所述的WLA语义相关度算法公式推导如下:[0026]首先,考虑到两个词项对应的维基百科主题页面摘要段来计算两个词条的语义相关度,公式如下:[0027][0028]其中,a,b是两个候选主题,N1,N2分别是单词组T1,T2的单词数量,q是两个单词组的公共词的个数,MAXN1,N2MINN1,N2是调和参数,T1Wi是单词组T冲第i个公共词的权重,其中是第i个词在文档中出现的频率,计算公式如下:[0029][0030]其中,V表示I^T2中公共词频总数。[0031]其次,考虑使用词项所指向的维基百科主题页面中的链入和链出信息来计算语义相关度,其中,DavidMilne所提出的链入计算方法如下:[0032][0033]由于维基百科主题页面还有链出结构,所以将链出结构也考虑其中,最后使用链接结构计算语义相关度的公式如下[0034]Simia,b=PSim〇uta,b+l-βSimina,b[0035]a,b是两个候选主题,Α,Β是对应的主题页面的链入数量,W是维基百科主题页面数量,simmjta,b是通过主题页面链出计算的语义相关度,其计算方法和sinuna,b相同,综上所属,得出WLA的计算公式如下:[0036]WLAsima,b=〇Simaa,b+l-αSimia,b[0037]在本发明中,α,β分别代表词项对应维基百科的文本信息和链接结构的权值,分别取α=0·7,β=0·3即,[0038]Sim=0.7*Simaa,b+0.3*Simia,b[0039]其中Simi=O·7*Simin+0·3*Sim0Ut。[0040]第1.3步所述特征扩展集合构建方法过程如下:[0041]如图1所示,经过相关特征抽取、词项间语义关系量化之后,为每个给定的主题特征词项构建相应的特征扩展词项向量^{31,1'1,^2,^,"_,(〇{,^〇},其中^〇_=1,2^··,k是与主题特征词项t相关的备选扩展词项,:Tii=l,2,…,k表示Ci与t之间的语义相似度。考虑备选扩展词项出现频率的问题,本发明利用如下公式将备选扩展词项与主题特征词项之间的语义相似度及其出现频率进行综合。[0042][0043]Γι表示备选扩展词项与主题特征词项t之间的语义相似度,k表示主题特征词项t所对应的备选扩展词项向量中元素的个数,Ni表示ti出现的频率。其中Ct中元素的次序按照ri的大小排列。[0044]Bagging_BSJ算法描述如下:[0045][0046]根据以上算法,Bagging_BSJ算法流程图如图2所示。实线连接的部分表示分类器的训练过程,虚线连接的部分表示测试过程。在训练分类器时,首先通过有放回的采样技术抽取ZdZdZ3个训练样本子集,然后以朴素贝叶斯为基分类器的Bagging分类器对前Z1个子集进行训练,训练出的模型记为。类似的,中间的办个子集和最后的Z3个子集分别以支持向量机和J48为基分类器进行训练,得到的分类模型分别记为和,用该方法训练得到+Z2+Z3个分类器。[0047]本发明的优点和积极效果[0048]本发明应用于短文本分类中,对短文本进行WLA语义扩展,进行相关特征抽取,对语义关系量化处理,构建特征扩展集合,并基于Bagging集成算法思想,结合朴素贝叶斯算法,支持向量机算法和J48算法,克服三种算法的缺陷,提出Bagging_BSJ算法。可以更好的对短文本进行特征扩展和分类。理论以及实验表明,该方法比传统朴素贝叶斯算法等在许多方面都有更好的效率,如准确率,召回率和F值等。[0049]本发明提出的Bagging_BSJ方法可应用在短文本分类的各个方面,如QQ消息,微信,短信,微博等。本发明可有效弥补短文本特征稀疏、语义匮乏等缺陷,而且为舆情分析、社交即时消息处理等领域提供了借鉴手段,具有算法步骤清晰,对短文本分类效率高等优点,因而具有很强的实际应用价值。附图说明[0050]图1是维基扩展短文本特征词项表模型图。[0051]图2是本发明Bagging_BSJ算法流程图。[0052]图3是词项对应的维基百科主题页面图。[0053]图4是多种分类算法对相同数据进行分类时间花费图。[0054]图5是多种分类算法在不同数据集上的分类准确率图。[0055]图6是多种分类算法在不同数据集上的分类召回率图。[0056]图7是多种分类算法在不同数据集上的分类F值图。[0057]图8是多种分类算法在不同数据集上的分类时间消耗图。具体实施方式[0058]实施例一、短文本WLA语义扩展及Bagging_BSJ分类[0059]对短文本进行基于维基的WLA语义特征扩展,并用Bagging_BSJ算法进行分类,具体步骤如下:[0060]1、对短文本进行WLA语义扩展[0061]1给定词项book,找到它所对应的主题页面,如图3所示。利用Lucence分词工具进行预处理之后,得到一组备选扩展词项{¥1';[丨6,卩1';[111:;[11〖,;[111181:瓜1:;[011,811661:,丨611:,6-book,page,paper,ink,parchment,material,book,leaf},即为词项book基于维基百科的简单特征扩展词项表。[0062]2采用提出的基于维基百科的语义相似度算法WLA进行计算,利用如下公式:[0063]WLAsima,b=aSimaa,b+l-αSimia,b[0064]分别取α=〇·7,β=〇·3,得[0065]Sim=O·3*Simi+0·7*Simt[0066]其中Simi=O·7*Simin+0·3*Sim0Ut[0067]计算主题特征词项book与备选扩展词项中各备选扩展特征词项之间的语义相关性,得到结果如下:[0068]{write,0.74,printing,0.73,illustration,0.78,sheet,0.79,text,0.88,book,I,e-book,0.828,page,0.876,paper,0.86}〇[0069]3特征扩展词项表构建[0070]选择排名最高的五个特征词项作为词项book的特征扩展词项,8卩{book,text,page,paper,[0071]e-b〇〇k},对这五个词项重复进行⑴和(2两个步骤,得到维基扩展向量为:仏-book,information,source,physical,database,document,material,newspaper,digital···}[0072]最终可得语义扩展后的词项向量为:[0073]{information,0.82,database,0.798,book,0.796···}[0074]2、对WLA语义扩展后的词项进行Bagging_BSJ分类[0075]利用Weka挖掘工具,用本发明提出的Bagging_BSJ分类算法模型对上述得到的词项进行分类,其中,取Zi=Z2=Z3=15,g=1000。[0076]从图4中,可得出结论:本发明提出的Bagging_BSJ算法比SVM和NB所需时间略多,但又远小于J48算法。是由于J48分类模型在对每一组实验数据进行分类时,都需要重新训练模型。[0077]对不同类型短文本进行分类,包括以下三种数据类型。未经处理的短文本原数据,由维基扩展后的短文本和本方法提出的WLA语义扩展后的短文本。分别用NB,SVM,J48以及本发明方法Bagging_BSJ算法进行分类,得出结果如图5,图6,图7和图8所示。[0078]从图5中,可得出结论:各数据集在不同的分类器上的分类准确率都呈现出较一致的趋势,维基扩展和WLA语义扩展后数据集的分类准确率94.6%,远高于不进行特征扩展的短文本分类。而由维基扩展后的短文本分类的准确率,略低于由WLA语义扩展后的短文本分类准确率。[0079]从图6中,可得出结论:本发明算法Bagging_BSJ的召回率93.3%表现最好,其他分类器在WLA语义扩展后的短文本分类上的召回率最高,在未扩展的原数据集上的分类召回率最低。而Bagging_BSJ分类器虽然在维基扩展数据集和WLA语义扩展数据集上的分类召回率相等,但远高于在原数据集上的召回率。[0080]从图7中,可得出结论:综合考虑分类准确率和召回率,S卩F值。扩展后的短文本分类比未扩展的短文本原数据分类表现了较好的F值94.1%。相比于原数据和维基扩展数据,本发明提出的WLA语义扩展后的短文本分类的效果最好。[0081]从图8中,可得出结论:基于短文本原数据分类的时间花费最少,本发明提出的基于WLA语义扩展的分类处理时间略高于原数据的分类处理时间,但低于维基百科简单扩展短文本分类的时间消耗。[0082]综合图5,图6,图7和图8,得出结论:相对于其他分类方法,本发明提出的基于WLA语义特征扩展后的短文本Bagging_BSJ分类方法在准确率,召回率,F值等指标中均表现出较好的性能。有效的解决了传统文本分类模型应用于短文本分类时准确率低、召回率低等问题,同时也缩短了短文本分类的时间花费。

权利要求:I.一种Bagging_BSJ短文本分类方法,其特征在于该方法主要包括如下关键步骤:第1、基于维基百科知识库的WLA短文本语义特征扩展;第1.1、相关特征抽取,对于给定特征词项,通过消歧义和重定向将该特征词项映射到对应的维基百科页面中,提取页面文本信息,并对这些文本信息进行去噪处理,得到一组由词项组成的特征向量,该特征向量中的元素为特征词项的备选扩展词项;第1.2、语义关系量化,通过WLAWikipediaLinksandAbstract算法进行语义关系计算,定量描述给定特征词项与第1.1步得到的备选扩展词项之间的语义关联程度;第1.3、经过相关特征抽取、词项间语义关系量化之后,为每个给定的主题特征词项构建相应的特征扩展词项向量",(〇^1〇},其中^、1=1,2,〜,1^,是与主题特征词项t相关的备选扩展词项,ri、i=l,2,-_,k,表示^与1之间的语义相似度,将这些词项向量作为下面短文本分类时的样本;第2、基于集成思想的Bagging_BSJ短文本分类算法;第2.1、假设训练集5={〇^,71,2,72,〜,(,711}中含有111篇文章11种类别,其中11为训练样本,^为^所对应的类别标签;第2.2、利用有放回的抽样技术分别从训练集S中抽取Z1个、Z2个、Z3个训练样本子集,每个子集中均含有g个样本;第2.3、以朴素贝叶斯为基分类器的Bagging分类器对前个子集进行训练,训练出的模型记为心…类似的,中间的ZA子集和最后的Z3个子集分别以支持向量机和J48为基分类器进行训练,得到的分类模型分别记为丨和心{^+1,…,〃幻,用该方法训练得到+Ζ2+Ζ3个分类器;第2.4、分类过程是将2.3训练得到的分类模型H1、i=1,2,…,ZdZAZ3,均作用于待分类样本,并借助于投票算法对分类结果进行集成处理,从而判断出新样本类别;即:

百度查询: 天津理工大学 一种Bagging_BSJ短文本分类方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术