首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

宫廷服饰文本主题生成方法、装置、电子设备及存储介质 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京邮电大学

摘要:本发明实施例提供了一种宫廷服饰文本主题生成方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理的多个文本单元,分别对多个文本单元进行分词,得到每个文本单元对应的词集合,针对每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将各词的词频向量组合得到该文本单元的词频向量,根据每个文本单元的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量,根据每两个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果,针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。

主权项:1.一种宫廷服饰文本的主题生成方法,其特征在于,所述方法包括:获取待处理的多个文本单元,分别对所述多个文本单元进行分词,得到每个文本单元对应的词集合;针对所述每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将所述各词的词频向量组合得到该文本单元的词频向量;根据所述每个文本单元的词频向量,按照如下公式所示的狄利克雷算法,计算所述每个文本单元的主题向量: 其中,θ表示主题向量,z表示主题,w表示单词,α表示向量参数,β表示各主题对应的单词概率分布矩阵,pθ,z,w|α,β表示给定α、β时主题向量、主题和单词的联合概率分布,pθ|α表示给定α时主题向量θ的条件概率分布,pzn|θ表示以主题向量θ为条件时第n个主题zn的条件概率分布,pwn|zn,β表示给定β和第n个主题zn时第n个单词wn的条件概率分布,zn表示一个文本单元的第n个主题,wn表示一个文本单元的第n个单词,表示N个主题的pzn|θ与pθ,z,w|α,β的乘积,N表示主题的数量;根据每两个文本单元的主题向量,计算所述每两个文本单元之间的余弦距离;以所述每个文本单元为顶点,以大于或等于预设距离门限值的所述每两个文本单元之间的余弦距离,作为所述每两个文本单元之间的边,建立包含所述多个文本单元的网络图;针对所述多个文本单元的网络图,通过Tabu搜索算法,对所述多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果;针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。

全文数据:宫廷服饰文本主题生成方法、装置、电子设备及存储介质技术领域本发明涉及数据挖掘技术领域,特别是涉及一种宫廷服饰文本主题生成方法、装置、电子设备及存储介质。背景技术宫廷服饰是指皇朝历史期间,皇帝、皇后以及皇室成员和文武大臣在各种场合穿着的服饰,主要包括礼服、吉服、常服、行服、雨服、便服等等。宫廷服饰综合反映了宫廷文化、艺术、服装制造业水平等。对于宫廷服饰,除存留了珍贵丰富的历史实物外,还有大量的相关专著、论文、图案介绍说明等文本资料。由于关于宫廷服饰的文本资料之间存在复杂的关系,为了便于学者研究,需要对文本资料进行聚类。并且,在对文本资料进行聚类研究后,还需要确定各聚类的主题,以确定各聚类所反映的主要内容。然而,现有技术中并没有确定宫廷服饰文本聚类的主题的方法。发明内容本发明实施例的目的在于提供一种宫廷服饰文本主题生成方法、装置、电子设备及存储介质,以实现在对宫廷服饰文本聚类后,确定聚类的主题。具体技术方案如下:第一方面,本发明实施例提供了一种宫廷服饰文本的主题生成方法,该方法包括:获取待处理的多个文本单元,分别对多个文本单元进行分词,得到每个文本单元对应的词集合;针对每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将各词的词频向量组合得到该文本单元的词频向量;根据每个文本单元的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量;根据每两个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果;针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。可选的,在针对每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将各词的词频向量组合得到该文本单元的词频向量之后,本发明实施例的一种宫廷服饰文本主题生成方法还包括:通过TF-IDF算法对每个文本单元的词频向量进行修正,得到每个文本单元修正后的词频向量;相应的,根据每个文本单元的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量,包括:根据每个文本单元修正后的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量。可选的,根据每两个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果,包括:根据每两个文本单元的主题向量,计算每两个文本单元之间的余弦距离;以每个文本单元为顶点,以每两个文本单元之间的余弦距离为每两个文本单元之间的边,建立包含多个文本单元的网络图;针对多个文本单元的网络图,通过Tabu搜索算法,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果。可选的,以每个文本单元为顶点,以每两个文本单元之间的余弦距离为每两个文本单元之间的边,建立包含多个文本单元的网络图,包括:以每个文本单元为顶点,以大于或等于预设距离门限值的每两个文本单元之间的余弦距离,作为每两个文本单元之间的边,建立包含多个文本单元的网络图。第二方面,本发明实施例还提供了一种宫廷服饰文本主题生成装置,该装置包括:分词模块,用于获取待处理的多个文本单元,分别对多个文本单元进行分词,得到每个文本单元对应的词集合;词频向量计算模块,用于针对每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将各词的词频向量组合得到该文本单元的词频向量;主题向量计算模块,用于根据每个文本单元的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量;聚类模块,用于根据每两个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果;主题生成模块,用于针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。可选的,本发明实施例的一种宫廷服饰文本主题生成装置,还包括:修正模块,用于通过TF-IDF算法对每个文本单元的词频向量进行修正,得到每个文本单元修正后的词频向量;相应的,主题向量计算模块,具体用于:根据每个文本单元修正后的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量。可选的,聚类模块,包括:余弦距离计算子模块,用于根据每两个文本单元的主题向量,计算每两个文本单元之间的余弦距离;网络图建立子模块,用于以每个文本单元为顶点,以每两个文本单元之间的余弦距离为每两个文本单元之间的边,建立包含多个文本单元的网络图;聚类子模块,用于针对多个文本单元的网络图,通过Tabu搜索算法,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果。可选的,网络图建立子模块,具体用于:以每个文本单元为顶点,以大于或等于预设距离门限值的每两个文本单元之间的余弦距离,作为每两个文本单元之间的边,建立包含多个文本单元的网络图。第三方面,本发明实施例还提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现本发明实施例第一方面提供的一种宫廷服饰文本主题生成方法的步骤。第四方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时,实现本发明实施例第一方面提供的一种宫廷服饰文本主题生成方法的步骤。本发明实施例提供的一种宫廷服饰文本主题生成方法、装置、电子设备及存储介质,通过计算各文本单元对应的词集合中包括的各词的词频向量,根据该词频向量,计算每个文本单元的主题向量,再根据该每个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果,然后将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。可以实现在对宫廷服饰文本聚类后,生成各聚类对应的主题,以方便宫廷服饰文本单元管理人员在查阅时,可以直接根据主题,查找到与该主题对应的多个文本单元,极大的方便了管理人员对文本单元的查找,节省了查找文本单元的时间。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例的一种宫廷服饰文本主题生成方法的流程图;图2为本发明实施例的一种宫廷服饰文本主题生成方法中6个文本单元之间的网络图;图3为本发明实施例还提供了一种宫廷服饰文本主题生成装置的结构示意图;图4为本发明实施例的一种宫廷服饰文本主题生成方法应用于电子设备的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为了解决现有技术存在的问题,本发明实施例提供了一种宫廷服饰文本主题生成方法、装置、电子设备及存储介质,可以实现在对宫廷服饰文本聚类后,生成各聚类对应的主题。下面,首先对本发明实施例的一种宫廷服饰文本主题生成方法进行介绍,如图1所示,为本发明实施例的一种宫廷服饰文本主题生成方法的流程图,该方法可以包括:S101,获取待处理的多个文本单元,分别对多个文本单元进行分词,得到每个文本单元对应的词集合。在一些示例中,本发明实施例提供的一种宫廷服饰文本主题生成方法,可以应用于电子设备,具体的,该电子设备可以为:台式计算机、便携式计算机、智能移动终端等。在一些示例中,上述的文本单元可以是描述宫廷服饰的文本单元,该文本单元可以包括对宫廷服饰的等级制度、材质、图案等的介绍。该文本单元还可以可以是专著、论文,也可以是文档的段落、句子等。具体的,上述的文本单元,可以存储在应用本发明实施例提供的一种宫廷服饰文本主题生成方法的电子设备的存储单元中,该存储单元可以内置于该电子设备中,也可以通过数据接口与该电子设备连接。因此,在本步骤中,应用本发明实施例提供的一种宫廷服饰文本主题生成方法的电子设备可以从该存储单元中读取文本单元,从而实现获取待处理的多个文本单元。在对上述的文本单元进行分词时,可以按照词性对本文单元进行分词,例如,在文本单元为汉语时,可以按照实词中的名词、动词、形容词、代词、数词、量词以及虚词中的副词、介词、连词、助词、叹词、拟声词对文本单元进行分词。在文本单元为英文时,可以按照介词、代词、名词、动词、连词、主词、助动词、形容词、副词、冠词、数词、感叹词对文本单元进行分词。在一些示例中,还可以按照用户预先设置的分词规则对文本单元进行分词。通过对文本单元进行分词,可以使用该文本单元分词后得到的词集合表示该文本单元。例如,应用本发明实施例的方法确定文本单元1、文本单元2、文本单元3、文本单元4、文本单元5和文本单元6的主题。可以首先分别对单元1、文本单元2、文本单元3、文本单元4、文本单元5和文本单元6进行分词。在一些示例中,在对每个文本单元进行分词后,还可以对每个文本单元建立一个词集合,该词集合中包含有对该文本单元进行分词后得到的词。S102,针对每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将各词的词频向量组合得到该文本单元的词频向量。在一些示例中,通过上述步骤得到的词集合中包含的词,在该文本单元中可能出现多次,也可能出现一次,这里,为了对词集合中的各个词的出现频率进行统计,可以计算各文本单元对应的词集合中包括的各词的词频向量。例如,在对文本单元1进行分词,得到文本单元1对应的词集合后,在本步骤中,可以计算文本单元1对应的词集合中包括的各词的词频向量。具体的,在计算各文本单元对应的词集合中包括的各词的词频向量时,可以首先计算各文本单元对应的词集合中包括的各词的词频,然后对各词的词频进行拉普拉斯平滑处理,最后将平滑处理后的各词的词频列成向量,可以得到各文本单元对应的词集合中包括的各词的词频向量。在计算各词的词频向量后,可以对各词的词频向量进行组合,得到该文本单元的词频向量。假设,对文本单元1进行分词后,得到的词集合中包含4个词,通过本步骤后,计算得到的各词的词频向量分别为4,5,0,2,对各词的词频向量组合后,得到文本单元1的词频向量为文本单元1={4,5,0,2}。通过本步骤,可以用每个文本单元的词频向量表示该文本单元,从而实现对文本单元的数据化,以利于后续步骤生成文本单元的主题向量。S103,根据每个文本单元的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量。具体的,狄利克雷算法作为一种文档主题计算的算法,在本步骤中,可以更方便的计算出每个文本单元的主题向量。并且,可以降低计算每个文本单元主题的复杂度。在一些示例中,该狄利克雷算法可以表示为以下公式:其中,θ表示主题向量,z表示主题,w表示单词,α表示向量参数,β表示各主题对应的单词概率分布矩阵,pθ,z,w|α,β表示给定α、β时主题向量、主题和单词的联合概率分布,pθ|α表示给定α时主题向量θ的条件概率分布,pzn|θ表示以主题向量θ为条件时第n个主题zn的条件概率分布,pwn|zn,β表示给定β和第n个主题zn时第n个单词wn的条件概率分布,zn表示一个文本单元的第n个主题,wn表示一个文本单元的第n个单词,表示N个主题的pzn|θ与pθ,z,w|α,β的乘积。在通过狄利克雷算法求解过程中,可以将w作为观察变量,θ和z作为隐藏变量,通过最大熵算法估计α和β。在本发明实施例的求解过程中,可以使用基于分解假设的变分法求解pθ,z|w的似然函数下界,进行期望最大化估计。应当理解的是,在计算αβ和pθ,z|w时,可以使用现有的狄利克雷算法中常用的算法进行求解,这里不再赘述。通过本步骤,在得到每个文本单元的主题向量后,以利于后续步骤中使用计算得到的每个文本单元的主题向量进行聚类。S104,根据每两个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果。具体的,在计算得到每个文本单元的主题向量后,在本步骤中,可以根据每两个文本单元的主题向量,对多个文本单元进行聚类。在一些示例中,在对多个文本单元进行聚类时,可以将首先计算每两个文本单元的主题向量之间的相似度,然后将主题向量之间的相似度小于预设条件的两个文本单元作为一个聚类。具体的,在计算每两个文本单元的主题向量之间的相似度时,可以通过计算每两个文本单元的主题向量之间的欧氏距离,以该欧氏距离体现每两个文本单元的主题向量之间的相似度。例如,当两个文本单元的主题向量之间的欧式距离越大,则说明该两个文本单元的主题向量之间的相似度越小,当两个文本单元的主题向量之间的欧式距离越小,则可以说明该两个文本单元的主题向量之间的相似度越大。在一些示例中,可以将属于同一类别的多个文本单元作为一个文本单元集合,每个集合中可以至少包含一个文本单元,该多个文本单元可以聚类为至少两个文本单元集合,因此,在对多个文本单元进行聚类后,可以得到包含多个文本单元集合的聚类结果。在一些示例中,可以以主题向量集合,表示与该主题向量对应的文本单元的聚类,还可以在得到包含多个文本单元集合的聚类结果时,将每个文本单元对应的主题向量添加至每个文本单元集合中。S105,针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。具体的,在通过上述步骤对多个文本单元进行聚类后,为了使确定的每个文本单元集合的主题,能够更确切的反映该文本单元集合的内容,在本步骤中,可以首先确定每个文本单元集合中的文本单元包含的词的词频向量,然后可以选择词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。例如,假设通过上述步骤,对文本单元1、文本单元2、文本单元3、文本单元4、文本单元5和文本单元6进行聚类后,聚类结果为:文本单元1、文本单元3和文本单元5为第一文本单元集合,文本单元2和文本单元6为第二文本单元集合,文本单元4为第三文本单元集合。对于第一文本单元集合,可以首先确定文本单元1中包含的词的词频向量、文本单元3中包含的词的词频向量、文本单元5中包含的词的词频向量,然后可以选择文本单元1、文本单元3和文本单元5中的各词的词频向量大于预设词频向量门限值的词,作为第一文本单元集合的主题。具体的,该预设词频向量门限值可以是根据经验设置的值,也可以是通过该文本单元集合中主题词的数量和修正系数的乘积得到的,其中,该修正系数可以为0.7。通过本发明实施例提供的一种宫廷服饰文本主题生成方法,在计算各文本单元对应的词集合中包括的各词的词频向量后,可以根据该词频向量,计算每个文本单元的主题向量,再根据该每个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果,然后将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。可以实现在对宫廷服饰文本聚类后,生成各聚类对应的主题,以方便宫廷服饰文本单元管理人员在查阅时,可以直接根据主题,查找到与该主题对应的多个文本单元,极大的方便了管理人员对文本单元的查找,节省了查找文本单元的时间。在本发明实施例的一种可能的实现方式中,为了降低计算主题向量的复杂度,抑制无用高频词对词频向量的影响,在计算出各词的词频向量后,还可以对词频向量进行修正,其中,该无用高频词为不能表现文本单元含义的词,可以包括语助词。具体的,在针对每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将各词的词频向量组合得到该文本单元的词频向量之后,本发明实施例的一种宫廷服饰文本主题生成方法,还可以包括:通过TF-IDF算法对每个文本单元的词频向量进行修正,得到每个文本单元修正后的词频向量。具体的,可以通过以下公式:对每个文本单元的词频向量进行修正。其中,表示对第m个文本单元的第t个词的词频向量进行修正后的TF-IDF值,表示第m个文本单元的第t个词的词频,Km表示第m个文本单元的词集合中词的数量,Kmt表示第m个文本单元的词集合中,去除无关高频词后,词集合中词的数量。具体的,TF-IDF算法是一种统计算法,用于计算字或词在文本单元中的重要程度。通过本步骤对每个文本单元的词频向量进行修正,可以在后续步骤计算主题向量时,使用的词频向量对应的词更能够反映该文本单元的主要内容。相应的,根据每个文本单元的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量,包括:根据每个文本单元修正后的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量。具体的,在对每个文本单元的词频向量进行修正后,在通过狄利克雷算法计算每个文本单元的主题向量时,可以根据每个文本单元修正后的词频向量,计算每个文本单元的主题向量。这样,可以使得根据文本单元的主题向量进行聚类时,聚类的结果更准确,提高本发明实施例的准确度。具体的,在根据每两个文本单元的主题向量,对多个文本单元进行聚类时,本发明实施例还提供了一种可能的实现方式,具体可以包括:步骤A,根据每两个文本单元的主题向量,计算每两个文本单元之间的余弦距离;具体的,可以通过以下公式:计算每两个文本单元之间的余弦距离。其中,·,·表示词频向量的点积,||·||2表示词频向量的2范数,dcosli,lj表示词频向量li对应的文本单元和词频向量lj对应的文本单元之间的余弦距离,li表示第i个文本单元,lj表示第j个文本单元,并且,i与j不相同。例如,通过本步骤,可以分别根据文本单元1、文本单元2、文本单元3、文本单元4、文本单元5和文本单元6的词频向量,计算文本单元1、文本单元2、文本单元3、文本单元4、文本单元5和文本单元6中,任意两个文本单元之间的余弦距离,例如,可以计算文本单元1和文本单元2之间的余弦距离,文本单元3和文本单元5之间的余弦距离。步骤B,以每个文本单元为顶点,以每两个文本单元之间的余弦距离为每两个文本单元之间的边,建立包含多个文本单元的网络图。在一些示例中,在通过上述步骤计算出多个文本单元中每两个文本单元之间的余弦距离后,可以建立包含该多个文本单元的网络图。具体的,在建立包含该多个文本单元的网络图时,可以以每个文本单元为顶点,以每两个文本单元之间的余弦距离为每两个文本单元之间的边,建立包含该多个文本单元的网络图。为了更清楚的说明本发明实施例如何建立包含多个文本单元的网络图,下面举例进行说明,如图2所示,为本发明实施例的一种宫廷服饰文本主题生成方法中6个文本单元之间的网络图,在该图中,A表示文本单元1,B表示文本单元2,C表示文本单元3,D表示文本单元4,E表示文本单元5,F表示文本单元6。A与B之间的边表示文本单元1与文本单元2之间的余弦距离,A与C之间的边表示文本单元1与文本单元3之间的余弦距离,A与D之间的边表示文本单元1与文本单元4之间的余弦距离,A与E之间的边表示文本单元1与文本单元5之间的余弦距离,A与F之间的边表示文本单元1与文本单元6之间的余弦距离,B与C之间的边表示文本单元2与文本单元3之间的余弦距离,B与D之间的边表示文本单元2与文本单元4之间的余弦距离,B与E之间的边表示文本单元2与文本单元5之间的余弦距离,B与F之间的边表示文本单元2与文本单元6之间的余弦距离,C与D之间的边表示文本单元3与文本单元4之间的余弦距离,C与E之间的边表示文本单元3与文本单元5之间的余弦距离,C与F之间的边表示文本单元3与文本单元6之间的余弦距离,D与E之间的边表示文本单元4与文本单元5之间的余弦距离,D与F之间的边表示文本单元4与文本单元6之间的余弦距离,E与F之间的边表示文本单元5与文本单元6之间的余弦距离。通过建立包含多个文本单元的网络图,可以方便后续步骤通过Tabu搜索算法对文本单元进行聚类。步骤C,针对多个文本单元的网络图,通过Tabu搜索算法,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果。在一些示例中,在通过上述步骤建立包含多个文本单元的网络图后,在本步骤中,可以通过Tabu算法,对该多个文本单元进行聚类。具体的,在通过Tabu算法,对该多个文本单元进行聚类时,首先随机对多个文本单元进行聚类,生成初始聚类,该初始聚类中包含多个文本单元集合。例如,将文本单元1、文本单元3和文本单元5作为初始聚类的第一文本单元集合,将文本单元2和文本单元6作为初始聚类的第二文本单元集合,将文本单元4作为初始聚类的第三文本单元集合。然后,可以通过Tabu算法进行迭代搜索。每迭代搜索一次后,可以通过公式:计算各文本单元集合的模块化参数值。其中,Q表示各文本单元集合的模块化参数值,δIk,Il为克罗内克函数,当Ik与Il相同时,δIk,Il=1,当Ik与Il不同时,δIk,Il=0,Ik表示文本单元k的主题向量,Il表示文本单元l的主题向量,ak,l表示文本单元k和文本单元l在网络图中对应顶点间的·连接的边数;akr表示文本单元k和文本单元r在网络图中对应顶点间的连接的边数,al表示文本单元l在网络图中对应点的度,ak表示文本单元k在网络图中对应点的度,文本单元l和文本单元r不同。应当理解的是,Tabu算法为现有的一种算法,并且,通过Tabu算法进行迭代搜索为现有的的搜索过程,这里对通过Tabu算法进行迭代搜索不进行赘述。然后可以判断该模块化参数值是否满足预设条件,在该模块化参数值满足预设条件时,可以将迭代搜索的结果作为对多个文本单元进行聚类的聚类结果。在一些示例中,可以以该模块化参数值是否增大为预设条件,例如,当该模块化参数值一直为降低时,则说明该模块化参数值满足预设条件,当该模块化参数值从降低变为增大时,则说明该模块化参数值不满足预设条件。例如,在对上述的三个文本单元集合进行多次迭代搜索后,在第一文本单元集合中包括的文本单元为文本单元1、文本单元2和文本单元4,第二文本单元集合中包括的文本单元为文本单元3和文本单元6,第三文本单元集合中包括的文本单元为文本单元5时,该三个文本单元集合的模块化参数值满足预设条件,这里,可以将包含文本单元1、文本单元2和文本单元4的第一文本单元集合,包含文本单元3和文本单元6的第二文本单元集合,包含文本单元5的第三文本单元集合作为最终的聚类结果。从而可以得到包含多个文本单元集合的聚类结果。通过本步骤,可以通过Tabu搜索算法对多个文本单元,更快更准确的进行聚类。具体的,在建立包含多个文本单元的网络图时,为了降低网络图的复杂度,在以每个文本单元为顶点,以每两个文本单元之间的余弦距离为每两个文本单元之间的边,建立包含多个文本单元的网络图时,可以以每个文本单元为顶点,以大于或等于预设距离门限值的每两个文本单元之间的余弦距离,作为每两个文本单元之间的边,建立包含多个文本单元的网络图。在一些示例中,该预设距离门限值可以为0.3。在本发明实施例中,当两个文本单元之间的余弦距离越大,可以说明该两个文本单元越相似,当两个文本单元之间的余弦距离小于预设距离门限值时,可以认为该两个文本单元之间的相似度较低,在本发明实施例中,可以在建立包含多个文本单元的网络图时,可以不选择该余弦距离小于预设距离门限值的两个文本单元。从而可以降低包含多个文本单元的网络图的复杂度,从而可以降低对多个文本单元进行聚类时的计算量,减少应用本发明实施例的方法,生成文本单元集合主题的时间消耗。相应于上述的方法实施例,本发明实施例还提供了一种宫廷服饰文本主题生成装置,如图3所示,为本发明实施例还提供了一种宫廷服饰文本主题生成装置的结构示意图,该装置可以包括:分词模块301,用于获取待处理的多个文本单元,分别对多个文本单元进行分词,得到每个文本单元对应的词集合;词频向量计算模块302,用于针对每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将各词的词频向量组合得到该文本单元的词频向量;主题向量计算模块303,用于根据每个文本单元的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量;聚类模块304,用于根据每两个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果;主题生成模块305,用于针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。本发明实施例提供的一种宫廷服饰文本主题生成装置,通过计算各文本单元对应的词集合中包括的各词的词频向量,根据该词频向量,计算每个文本单元的主题向量,再根据该每个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果,然后将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。可以实现在对宫廷服饰文本聚类后,生成各聚类对应的主题,以方便宫廷服饰文本单元管理人员在查阅时,可以直接根据主题,查找到与该主题对应的多个文本单元,极大的方便了管理人员对文本单元的查找,节省了查找文本单元的时间。具体的,本发明实施例的一种宫廷服饰文本主题生成装置,还可以包括:修正模块,用于通过TF-IDF算法对每个文本单元的词频向量进行修正,得到每个文本单元修正后的词频向量;相应的,主题向量计算模块303,具体用于:根据每个文本单元修正后的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量。具体的,聚类模块304,可以包括:余弦距离计算子模块,用于根据每两个文本单元的主题向量,计算每两个文本单元之间的余弦距离;网络图建立子模块,用于以每个文本单元为顶点,以每两个文本单元之间的余弦距离为每两个文本单元之间的边,建立包含多个文本单元的网络图;聚类子模块,用于针对多个文本单元的网络图,通过Tabu搜索算法,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果。具体的,网络图建立子模块,具体用于:以每个文本单元为顶点,以大于或等于预设距离门限值的每两个文本单元之间的余弦距离,作为每两个文本单元之间的边,建立包含多个文本单元的网络图。本发明实施例还提供了一种电子设备,如图4所示,为本发明实施例的一种宫廷服饰文本主题生成方法应用于电子设备的结构示意图,该电子设备可以包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,存储器403,用于存放计算机程序;处理器401,用于执行存储器403上所存放的程序时,实现如下步骤:步骤A,获取待处理的多个文本单元,分别对多个文本单元进行分词,得到每个文本单元对应的词集合;步骤B,针对每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将各词的词频向量组合得到该文本单元的词频向量;步骤C,根据每个文本单元的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量;步骤D,根据每两个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果;步骤E,针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。本发明实施例提供的应用一种宫廷服饰文本主题生成方法的电子设备,通过计算各文本单元对应的词集合中包括的各词的词频向量,根据该词频向量,计算每个文本单元的主题向量,再根据该每个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果,然后将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。可以实现在对宫廷服饰文本聚类后,生成各聚类对应的主题,以方便宫廷服饰文本单元管理人员在查阅时,可以直接根据主题,查找到与该主题对应的多个文本单元,极大的方便了管理人员对文本单元的查找,节省了查找文本单元的时间。上述电子设备提到的通信总线可以是外设部件互连标准PeripheralComponentInterconnect,PCI总线或扩展工业标准结构ExtendedIndustryStandardArchitecture,EISA总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器RandomAccessMemory,RAM,也可以包括非易失性存储器Non-VolatileMemory,NVM,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。上述的处理器可以是通用处理器,包括中央处理器CentralProcessingUnit,CPU、网络处理器NetworkProcessor,NP等;还可以是数字信号处理器DigitalSignalProcessing,DSP、专用集成电路ApplicationSpecificIntegratedCircuit,ASIC、现场可编程门阵列Field-ProgrammableGateArray,FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,该计算机程序被处理器执行时实现以下方法步骤:获取待处理的多个文本单元,分别对多个文本单元进行分词,得到每个文本单元对应的词集合;针对每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将各词的词频向量组合得到该文本单元的词频向量;根据每个文本单元的词频向量,通过狄利克雷算法,计算每个文本单元的主题向量;根据每两个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果;针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。本发明实施例提供的应用一种宫廷服饰文本主题生成方法的存储介质,通过计算各文本单元对应的词集合中包括的各词的词频向量,根据该词频向量,计算每个文本单元的主题向量,再根据该每个文本单元的主题向量,对多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果,然后将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。可以实现在对宫廷服饰文本聚类后,生成各聚类对应的主题,以方便宫廷服饰文本单元管理人员在查阅时,可以直接根据主题,查找到与该主题对应的多个文本单元,极大的方便了管理人员对文本单元的查找,节省了查找文本单元的时间。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

权利要求:1.一种宫廷服饰文本的主题生成方法,其特征在于,所述方法包括:获取待处理的多个文本单元,分别对所述多个文本单元进行分词,得到每个文本单元对应的词集合;针对所述每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将所述各词的词频向量组合得到该文本单元的词频向量;根据所述每个文本单元的词频向量,通过狄利克雷算法,计算所述每个文本单元的主题向量;根据每两个文本单元的主题向量,对所述多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果;针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。2.根据权利要求1所述的方法,其特征在于,在所述针对所述每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将所述各词的词频向量组合得到该文本单元的词频向量之后,所述方法还包括:通过TF-IDF算法对每个文本单元的词频向量进行修正,得到所述每个文本单元修正后的词频向量;相应的,所述根据所述每个文本单元的词频向量,通过狄利克雷算法,计算所述每个文本单元的主题向量,包括:根据所述每个文本单元修正后的词频向量,通过狄利克雷算法,计算所述每个文本单元的主题向量。3.根据权利要求1所述的方法,其特征在于,所述根据每两个文本单元的主题向量,对所述多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果,包括:根据每两个文本单元的主题向量,计算所述每两个文本单元之间的余弦距离;以所述每个文本单元为顶点,以所述每两个文本单元之间的余弦距离为所述每两个文本单元之间的边,建立包含所述多个文本单元的网络图;针对所述多个文本单元的网络图,通过Tabu搜索算法,对所述多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果。4.根据权利要求3所述的方法,其特征在于,所述以所述每个文本单元为顶点,以所述每两个文本单元之间的余弦距离为所述每两个文本单元之间的边,建立包含所述多个文本单元的网络图,包括:以所述每个文本单元为顶点,以大于或等于预设距离门限值的所述每两个文本单元之间的余弦距离,作为所述每两个文本单元之间的边,建立包含所述多个文本单元的网络图。5.一种宫廷服饰文本的主题生成装置,其特征在于,所述装置包括:分词模块,用于获取待处理的多个文本单元,分别对所述多个文本单元进行分词,得到每个文本单元对应的词集合;词频向量计算模块,用于针对所述每个文本单元,计算该各文本单元对应的词集合中包括的各词的词频向量,并将所述各词的词频向量组合得到该文本单元的词频向量;主题向量计算模块,用于根据所述每个文本单元的词频向量,通过狄利克雷算法,计算所述每个文本单元的主题向量;聚类模块,用于根据每两个文本单元的主题向量,对所述多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果;主题生成模块,用于针对每个文本单元集合,将该文本单元集合的文本单元包含的词中,词频向量大于预设词频向量门限值的词,作为对应各文本单元集合的主题。6.根据权利要求5所述的装置,其特征在于,所述装置还包括:修正模块,用于通过TF-IDF算法对每个文本单元的词频向量进行修正,得到所述每个文本单元修正后的词频向量;相应的,所述主题向量计算模块,具体用于:根据所述每个文本单元修正后的词频向量,通过狄利克雷算法,计算所述每个文本单元的主题向量。7.根据权利要求5所述的装置,其特征在于,所述聚类模块,包括:余弦距离计算子模块,用于根据每两个文本单元的主题向量,计算所述每两个文本单元之间的余弦距离;网络图建立子模块,用于以所述每个文本单元为顶点,以所述每两个文本单元之间的余弦距离为所述每两个文本单元之间的边,建立包含所述多个文本单元的网络图;聚类子模块,用于针对所述多个文本单元的网络图,通过Tabu搜索算法,对所述多个文本单元进行聚类,得到包含多个文本单元集合的聚类结果。8.根据权利要求7所述的装置,其特征在于,所述网络图建立子模块,具体用于:以所述每个文本单元为顶点,以大于或等于预设距离门限值的所述每两个文本单元之间的余弦距离,作为所述每两个文本单元之间的边,建立包含所述多个文本单元的网络图。9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一所述的方法步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。

百度查询: 北京邮电大学 宫廷服饰文本主题生成方法、装置、电子设备及存储介质

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。