Document
拖动滑块完成拼图
首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于Topic Model的本体构建方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海电机学院

摘要:本发明提供的一种基于TopicModel的本体构建方法。本发明提出了AOL方法,该方法支持自动的领域本体构建,发明了一种信息的计算概念之间语义相似性的度量方法,用来计算LDA模型产生的概念之间的语义相似性,AOL方法不限制根节点的子节点数量,不需要有种子本体作为初始学习本体的辅助。实验结果表明,本发明提出的利用TopicModel进行自动本体构建的方法是非常有效的。

主权项:1.一种基于TopicModel的本体构建方法,其特征在于,包括以下步骤:第一步、利用LDA模型从给定的文献语料库中进行概念抽取,由抽取到的概念产生出概念集合,然后进行概念层次细分产生本体构建的层次结构G,G={T,E},式中,T={t1,t2,…,tm}是概念集合,定义为上层概念集合;T’={t1’,t2’,…,tm’}是子概念集合,定义为上层概念集合T的下一层概念集合;E是边的集合,每个eij∈E表示概念集合T中的第i个概念ti与子概念集合T’中第j个概念tj’有边相连,其中,进行概念层次细分产生本体构建的层次结构G时遵循以下规则:规则1:如果ti∈T,tj’∈T’,NT<NT’,结论是:子概念集合T’比概念集合T概念层次高,其中,NT和NT’分别是概念集合T和子概念集合T’的层高级别;规则2:如果ti∈T,tj’∈T’,在ti与tj’之间极有可能存在上下级关系,其中,是空集;第二步、利用CosTMI相似性度量方法,识别层次结构G中各个概念之间的相似性,即相邻层次间概念的潜在联系,其中,上层概念集合T中第p个概念tp与概念tp的上下文中,下一层概念集合T’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMIts′,tr′;tp 式中,tp包含词汇序列{wp1,wp2,…,wpn};ts’包含词汇序列{ws’1,ws’2,…,ws’n};tr’包含词汇序列{wr’1,wr’2,…,wr’n};PMI是两个词汇的点互信息,两个词汇w与w’的点互信息为PMIw,w’,则有: 式中,Pw,w’=PwPw′|w; 式中,z是主题,Pz=j是主题为j时的概率,Pw|z=j是主题为j时,词汇w的条件概率,k是概念的数量; 式中,Pw′|z=j是主题为j时候w’的条件概率,Pz=j|w是词汇为w时,主题j的条件概率。

全文数据:一种基于TopicModeI的本体构建方法技术领域[0001]本发明涉及一种本体构建的方法,利用TopicModel作为产生基本概念单位,不用本体种子即可学习出本体达到构建本体的目的。背景技术[0002]近年来,本体构建已经应用到各种领域,如人工智能、信息抽取、机器翻译等领域。但是人工构建本体是非常耗时费力的工作,由于此原因,利用计算机数据分析、数据挖掘的方式自动构建本体是一件很有意义的研究,吸引了很多研究人员对此进行大量深入的研究。大多数现在的本体学习方法集中在扩展、更新已有的本体种子,利用从文献词库中抽取出概念或者词汇单元来更新和宽展本体种子。也有一些自动学习本体的方法,但是多数这种自动学习本体的方法都是基于特殊知识领域的本体构建,如SKOS模型,但是这些方法都具有一定的局限性。[0003]TopicModel概率模型是一种在没有先验知识提供的情况下,从科学出版物中识别出概念的已被业界证明了非常有效的模型。TopicModel模型现在已经被广泛应用到文本挖掘领域。[0004]EliasZavitsanos等提出一种基于统计方法的自动本体学习方法,该方法是通过不断的重复利用TopicModel模型训练出的概念集合,然后再利用条件独立性判断识别出的概念之间的联系,但是该方法不能进行两个层次结构之间概念的联系。Wangwei等人提出了两个方法都是基于语义Web学习本体结构的方法,该方法利用信息论与TopicModel相结合的方式,表现出很好的召回率和准确率,但是需要限制最近根节点的子概念节点的数量。发明内容[0005]本发明的目的是提供一种信息的计算概念之间语义相似性的度量方法,用来计算LDA模型产生的概念之间的语义相似性。[0006]为了达到上述目的,本发明的技术方案是提供了一种基于TopicModel的本体构建方法,其特征在于,包括以下步骤:[0007]第一步、利用LDA模型从给定的文献语料库中进行概念抽取,由抽取到的概念产生出概念集合,然后进行概念层次细分产生本体构建的层次结构G,G={T,E},式中,T={tl,t2,…,tm}是概念集合,定义为上层概念集合;Τ’={tl’,t2’,…,tm’}是子概念集合,定义为上层概念集合T的下一层概念集合;E是边的集合,每个eijeE表示概念集合T中的第i个概念ti与子概念集合Τ’中第j个概念tj’有边相连;[0008]第二步、利用CosTMI相似性度量方法,识别层次结构G中各个概念之间的相似性,即相邻层次间概念的潜在联系,其中,上层概念集合T中第p个概念tp与概念tp的上下文中,下一层概念集合Τ’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMIts、tr7;tp[0009][0010]式中,tp包含词汇序列包含词汇序列;tr’包含词汇序列是两个词汇的点互信息,两个词汇w与w’的点互信息为PMIw,w’),则有:[0011][0012]式中,[0013],式中,z是主题,是主题为j时的概率,是主题为j时,词汇w的条件概率,k是概念的数量;[0014]在^与tj’之间极有可能存在上下级关系,其中,f是空集。[0038]该规则能够帮助我们定义概念之间的本专利下面要介绍的相似性度量。[0039]三相似性度量[0040]本发明利用相似性度量的方法来构建本体的层次结构,也就是说概念之间的联系是通过概念之间的相似度建立的。两个层次概念集中的两个概念之间达到一定的相似度值,才能建立联系,否则认为他们之间是没有联系的。为了计算两个概念之间的语义相似性,要利用LDA模型在产生概念集合生成的概念矩阵,每个矩阵输入是概念出现在本体里的可能性大小。[0041]通常概念之间的相似性利用点互信息PMIPointwiseMutualInformation来度量,本发明定义了一种新的词汇w和w’之间语义相似性度量方法,利用两个概念的期望来定义PMI,每个概念有一系列的词汇组成,这也是LDA模型的一个特殊性质。两个词汇w与w’的点互信息为PMIw,w’),则有:[0042][0043]式中,[0044],式中,z是主题,是主题为j时的概率,是主题为j时,词汇w的概率,k是概念的数量;[0045]式中,是主题为j时,w’的概率,PZ=j|w是词汇为W时,主题为j的条件概率。[0046]本发明给出两个词汇的点互信息的计算公式是为后续组织构建本体之间概念的层次结构做准备,而且定义另个概念之间的语义相似性也会用到该公式。[0047]由LDA产生的每个概念对应本体结构里面的一个概念。语义相似性度量是度量两个概念之间的语义相似度。在特殊语境的上下文中,另外两个概念的语义相似度。上层概念集合T中第p个概念tp与概念tp的上下文中,下一层概念集合Τ’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMIts';tp[0048][0049]式中,tp包含词汇序列包含词汇序列包含词汇序列[0050]预先设定阈值thct,如果CosTMIts';tp值大于一定的阈值thct,在tp和ts,ts’建立关系。通过上述定义以及语义相似性的计算,得出的可以建立关系的概念都是本体构建中本体里的一个概念。阈值Thct是通过实验要确定的一个值,此值越大说明两个概念之间的语义相似性越大,反之语义相似性越小。[0051]以下利用真实的GENIA语料库及本体GENIA本体验证本文提出本体构建方法的有效性和实用性。[0052]本发明所提出的构建本体方法,由GENIA语料库对应的GENIA本体来进行实验验证。GENIA语料库是一个生物语料库。该语料库包含1,999个医学词汇,是从MeSH、human、和bloodcells中收集得到。GENIA本体中包含45个概念和42个关系。本发明的实验内容是将GENIA预料输入到LDA模型,计算出要构建本体的所需概念。本发明对比了本发明提出的方法AOL和Zavitsanos等人提出的方法算法,执行是在奔腾4,内存2GB的PC机上完成,对比了CosTMI和Zavitsanos等人提出的CI方法,参数设置的阈值分别是0.93和3*10-6。[0053]本发明提出的算法最终以召回率、准确率和Fl度量来评估有效性和本体结构的质量。两个方法执行对比结果如表1所示。[0054]表1概念C和关系S基于相似性度量的执行结果[0056]从表1中我们可以看到,我们提出的方法AOL执行结果是非常有效地,能够被用于其他领域知识的本体构建,准确率和召回率都是高于CI方法。[0057]图2展示了每个概念包含的词汇数量,在我们做实验过程中发现,每个概念所包含的词汇数量会影响到本体构建的准确性。实验结果表明如果每个概念包含10个以下的词汇数量,会严重影响本体构建的准确性。反之,如果每个概念包含的词汇数量越多,构建出本体的准确性也越高。但是并不是包含的概念越多越好,通过实验测试分析,每个概念包含16个词汇结果会比较好,如果概念包含词汇太多,概念中会出现语料库中出现的一些低频词汇,对本体构建中概念的抽象意义不大,反而会影响到本体构建的实际质量。[0058]在图3中我们展示了算法执行准确度的一个细节图,图中展示了CosTMI度量下载阈值thct=0.93时,算法执行是Fl值的变化情况,在图3中我们可以看到,当本体层次数量为7的时候Fl值最高。

权利要求:1.一种基于TopicModel的本体构建方法,其特征在于,包括以下步骤:第一步、利用LDA模型从给定的文献语料库中进行概念抽取,由抽取到的概念产生出概念集合,然后进行概念层次细分产生本体构建的层次结构G,G={T,E},式中,T=Ul,t2,…,tm}是概念集合,定义为上层概念集合;Τ’={tl’,t2’,...,tm’}是子概念集合,定义为上层概念集合T的下一层概念集合;E是边的集合,每个eijeE表示概念集合T中的第i个概念ti与子概念集合Τ’中第j个概念tj’有边相连;第二步、利用CosTMI相似性度量方法,识别层次结构G中各个概念之间的相似性,即相邻层次间概念的潜在联系,其中,上层概念集合T中第p个概念tp与概念tp的上下文中,下一层概念集合Τ’中第s个概念ts’和第r个概念tr’两个概念的语义相似度CosTMIt^,ty;tp式中,tp包含词汇序列{wpl,wp2,...,wpn};ts’包含词汇序列{ws'UwsS,...,ws’η};tr’包含词汇序列{wZl,w;i^2,...,wr’η};ΡΜΙ〇是两个词汇的点互信息,两个词汇w与w’的点互信息为PMIw,w’),则有:,式中,z是主题,PZ=j是主题为j时的概率,PwIZ=j是主题为j时,词汇w的条件概率,k是概念的数量;,式中,PwIz=j是主题为j时候w’的条件概率,PZ=j|w是词汇为w时,主题j的条件概率。2.如权利要求1所述的一种基于TopicModel的本体构建方法,其特征在于,在所述第一步中,进行概念层次细分产生本体构建的层次结构G时遵循以下规则:规则1:如果tieT,tj’ef结论是:子概念集合Τ’比概念集合T,其中,NT和NT7分别是概念集合T和子概念集合Τ’的层高级别;规则2:如果tieT,tj’eT’在ti与tj’之间极有可能存在上下级关系,其中,爭是空集。

百度查询: 上海电机学院 一种基于Topic Model的本体构建方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。