买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:不亦乐乎有朋(北京)科技有限公司
摘要:本发明公开一种基于归一化词频权重的特征选择方法,提取特征词在每篇文档中的词频并使用对率函数对其进行归一化处理,实现文档频率层面的词频加权。与此同时,本发明使用反正切归一化方法对MMR算法中最大最小比率部分进行处理,避免出现全局得分过大、与特征词的实际类别分辨能力不符的问题。实验结果显示本发明性能良好,提高了学习算法的执行效率以及分类结果的正确率,是可靠的特征选择算法。
主权项:1.基于归一化词频权重的特征选择方法,其特征在于,具体按照以下步骤实施:步骤1、选取拥有不同文档数量、类别数量以及包含不同特征词个数的文本类型数据集,对数据集进行预处理并划分出训练集和测试集;步骤2、设置最终选择出的特征子集的元素个数为C,首先使用特征排序函数计算训练集中所有出现的特征词的得分,根据得分情况对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据最优特征子集分别对训练集和测试集数据进行降维处理;所述步骤2具体按照以下步骤实施:步骤2.1、计算训练集数据特征词的加权真正率wtpr以及加权假正率wfpr;步骤2.2、计算训练集数据特征词的反正切归一化因子atanfac以及正类影响因子poski;步骤2.3、计算特征词ti的全局得分NTWFSti,得到带有权值的特征词集合;步骤2.4、根据每个特征词的全局得分对训练集的所有特征进行降序排序,选择排名为前C的特征词构成最优特征子集;步骤2.5、根据步骤2.4得到的最优特征子集分别对训练集文档和测试集文档进行处理,完成对训练集和测试集数据的降维操作;所述步骤2.1具体按照以下步骤实施:步骤2.1.1、使用对率函数将特征词ti在文档dj中出现的频率tfij进行归一化处理,得到归一化词频权重Logistictfij,如公式1所示, 其中,tfij表示特征词ti在文档dj中出现的次数;步骤2.1.2、根据公式2和3计算特征词ti在Ck类中的加权真正率wtpr, 其中,N为数据集的文档总数,Nk为类Ck中的文档总数,k表示类别序号,Iposdj,Ck用来判断文档dj是否属于类Ck,当文档dj属于类Ck时Iposdj,Ck为1,反之为0;步骤2.1.3、根据公式4和5计算特征词ti在类中的加权假正率wfpr, 其中,用来判断文档dj是否属于非Ck类,当文档dj属于非Ck类时为1,反之为0;所述步骤2.2具体按照以下步骤实施:步骤2.2.1、利用反正切函数对最大最小比率因子进行归一化,得到反正切归一化因子atanfac,如公式6所示, 步骤2.2.2、根据公式7计算特征词ti的正类影响因子poski, 其中,tp表示在类ck中特征词ti出现的文档数量,fn表示在类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,tn表示在非ck类中特征词ti没有出现的文档数量;所述步骤2.3具体为,根据公式8计算特征词ti的全局得分NTWFSti,得到带有权值的特征集合: 其中,k表示类别编号,PCk表示属于类Ck的文档数量在整个数据集中所占的比例;当minwtpr,wfpr为0时,atanfac值为1;步骤3、利用步骤2得到的训练集分别对朴素贝叶斯分类器和支持向量机分类器进行训练,使用训练出的分类模型对经步骤2处理后的测试集文档的类别进行预测,完成分类操作;步骤4、利用Macro-F1和Micro-F1评估指标对分类器的分类效果进行评估。
全文数据:
权利要求:
百度查询: 不亦乐乎有朋(北京)科技有限公司 基于归一化词频权重的特征选择方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。