首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于主题关联度与关键词联想的短文本特征扩展方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:南京邮电大学

摘要:本发明提供一种基于主题关联度与关键词联想的短文本特征扩展方法,该方法首先对原始文本数据进行预处理,进行分词、去除噪声等操作并进行词的向量化;然后利用TF‑IDF结合信息增益对词进行重要性量化计算,在此基础之上再通过信息增益构建决策树,利用决策树的分类效果进行主题关联度的量化计算;然后根据关联度对词向量降序排序,筛选TopK的词向量组成关键词集合;再结合外部语料库对关键词集合进行近义词扩展,然后根据关键词集合进行联想扩展,分为自关联联想扩展和外部库联想扩展两种方式;最后将扩展后的候选关联词集合再次进行主题关联度的计算,筛选TopK的词向量组成最终的关联词集合,加入到原始文本数据集,完成短文本的特征扩展。

主权项:1.一种基于主题关联度与关键词联想的短文本特征扩展方法,其特征在于,包括以下步骤:步骤1、对原始文本数据集进行预处理工作,包括分词、去躁、向量化;步骤2、利用词频-逆向文件频率和信息增益对词与主题的关联程度进行权重量化计算;词向量的主题关联度权重计算如下:步骤2.1、在预处理结束后的文本数据集上,文本中词向量与主题是否相关的概率分布为PX=xi=pi,i=1,2,其中xi表示与主题是否相关,有x1、x2两种取值,分别表示与主题相关和与主题不相关,pi即表示对应的概率;根据信息熵的定义,文本集合X的熵为:文本中的特征Y和文本集合X的联合分布为:PX=xi,Y=yi=pij,i=1,2;j=1,2,...,m式中,m表示特征数,xi表示与主题是否相关,有x1、x2两种取值,分别表示与主题相关和与主题不相关,yi表示第j个特征,pij即表示对应概率;每个特征的条件熵为:HX表示文本集合的熵,即对文本X分类的不确定性,HY|X则表示在文本集合X中,特征Y对分类的不准确性;信息增益IGX,Y为:IGX,Y=HX-HX,Y;步骤2.2、首先计算词频TF: 式中,ni,d表示特征fi在文档d中出现的次数,∑knk,d表示文档d中所有特征出现的次数;再计算逆文档频率: 式中,N表示文档总数,ni表示出现特征fi的文档数;那么TF-IDF的值即为词频与逆文档频率的乘积:TF-IDF=TFfi×IDFfi对词频进行归一化操作, 然后在TF-IDF基础上引入信息增益得最后的词重要性量化公式: 式中,IG表示信息增益;步骤2.3、对原始数据集进行k次简单随机抽样,构造k个数据集,数据集分别记为D1,D2,D3,....,Dk;对k个数据集构造决策树,将会产生k个决策树;之后通过给特征添加噪声对比对分类结果的影响,对于i个数据集Di,第j个特征的主题关联度量为Iij=|Mij-Nij|,其中Mij表示在第i个数据集中对第j个特征添加噪声前的分类正样本的个数,Nij表示在第i个数据集中对第j个特征添加噪声后的分类正确的个数;对于每棵树都可以得到某个特征的主题关联度量,因此对其取平均值得最后的主题关联度量为其中Iji表示第i个特征在第j个树上的主题关联度;步骤2.4、将步骤2.2所得TF-IDF-IG值与步骤2.3所得I进行乘运算,得最后的主题关联度,计算公式如下: 步骤3、根据权重对词进行降序排序,选取排序中TopK的词作为与主题关联程度高的关键词,并构建关键词集合;步骤4、将步骤3构建的关键词集合结合外部语料库进行近义词扩展;步骤5、根据关键词集合进行联想扩展,分为自关联联想扩展和外部库联想扩展两种方式,并生成候选关联词集合;然后对候选关联词集合重新进行词频-逆向文件频率与信息增益的权重计算,筛选TopK的词向量组成最终的关联词集合;将关联词集合加入到原始文本数据集中,完成短文本的特征扩展。

全文数据:

权利要求:

百度查询: 南京邮电大学 一种基于主题关联度与关键词联想的短文本特征扩展方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。