首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

基于协方差度量因子的特征选择方法 

申请/专利权人:广东云熹科技有限公司

申请日:2021-08-20

公开(公告)日:2024-07-05

公开(公告)号:CN113792141B

主分类号:G06F18/2113

分类号:G06F18/2113;G06F40/216;G06F40/284;G06F16/35;G06F18/214;G06F18/21;G06F18/2415;G06F18/213

优先权:

专利状态码:有效-授权

法律状态:2024.07.05#授权;2024.06.14#专利申请权的转移;2024.03.15#专利申请权的转移;2021.12.31#实质审查的生效;2021.12.14#公开

摘要:本发明公开的基于协方差度量因子的特征选择方法,在原有的三角比较度量算法TCM的基础上,引入协方差度量因子的概念,通过计算特征词与类别的协方差值,在文档频率层面进一步衡量特征与类别之间的相关性。验证本发明的性能时使用朴素贝叶斯算法进行分类操作,并使用宏F1和微F1对分类效果进行评估。本发明可以更好地筛选出与类别高度相关的特征词,是一种可靠的特征选择算法,提高了分类的准确率与效率。

主权项:1.基于协方差度量因子的特征选择方法,其特征在于,包括以下步骤:步骤1、选取不同的文本类型数据集进行预处理操作,利用向量空间模型对文本数据进行表示,将数据中出现的文档数多于总数的25%或少于3篇的特征词去掉,之后将数据集划分为训练集和测试集;步骤2、设置最优特征子集的大小为C,使用特征排序函数计算训练集数据每个特征词的得分,按照分数对特征词进行降序排列,选择排名为前C的特征词作为最优特征子集的元素,根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理;具体包括以下步骤:步骤2.1、根据公式1计算训练集特征词ti与类别ck的协方差度量因子covti,ck; 式1中,tp表示类ck中特征词ti出现的文档数量,fn表示类ck中特征词ti没有出现的文档数量,fp表示非ck类中特征词ti出现的文档数量,表示数据集的文档总数;步骤2.2、根据公式2计算训练集特征词ti的三角比较度量因子TCMti,ck得分;TCMti,ck=2maxsin2θ,cos2θ-1m|tpr-fpr|2式2中,tpr和fpr分别表示特征词ti在类ck中的真正率和假正率θ表示特征词ti对应的向量tpr,fpr与距离最近的坐标轴之间的夹角,参数m控制着TCM算法中三角度量因子对特征词整体分数的影响;步骤2.3、根据公式3计算特征词ti的全局得分COV-TCMti,得到带有权值的特征集合; 式3中,k表示类别编号,Pck表示属于类ck的文档数量在整个数据集中所占的比例;步骤2.4、根据训练集中每个特征词的COV-TCM得分对特征进行降序排序,选择排名前C的特征词作为最优特征;步骤2.5、分别对训练集和测试集数据进行处理,删去文档中最优特征子集不包含的特征词,保留最优特征子集包含的特征词,得到降维处理的训练集数据Dtrain和测试集数据Dtest;步骤3、利用步骤2得到的训练集数据Dtrain对朴素贝叶斯分类器进行训练,并将训练好的模型对测试集数据Dtest中的每一个样本x预测其对应的类别完成对降维后的测试集样本的分类操作;具体包括以下步骤:步骤3.1、根据公式4计算训练集中类别ck的先验概率 式4中,Nk表示类ck中所包含的文档总数,N表示数据集的文档总数;步骤3.2、根据公式5计算训练集中类别ck的样本均值 式5中,Dk表示类别为ck的文档的集合,Dk={xj|yj=ck},xj表示Dk中第j个文档,yj表示样本xj对应的标签;步骤3.3、根据公式6计算训练集中类别ck的居中数据矩阵Zk; 步骤3.4、根据公式7计算训练集中类别ck针对特征ti,i=1,2,…,C的方差; 式7中,Zki表示类别ck中特征ti的居中数据,C表示降维后的训练集样本特征维度大小;步骤3.5、根据公式8和9对测试集数据中样本x,x={t1,t2,…,tC}进行类别的预测,返回具有最大后验概率的类,即样本对应的类别完成对测试集样本的分类操作;

全文数据:

权利要求:

百度查询: 广东云熹科技有限公司 基于协方差度量因子的特征选择方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。