基于协方差度量因子的特征选择方法

导航：龙图腾网> 最新专利技术> 基于协方差度量因子的特征选择方法

申请/专利权人：广东云熹科技有限公司

申请日：2021-08-20

公开（公告）日：2024-07-05

公开（公告）号：CN113792141B

主分类号：G06F18/2113

分类号：G06F18/2113;G06F40/216;G06F40/284;G06F16/35;G06F18/214;G06F18/21;G06F18/2415;G06F18/213

优先权：

专利状态码：有效-授权

法律状态：2024.07.05#授权;2024.06.14#专利申请权的转移;2024.03.15#专利申请权的转移;2021.12.31#实质审查的生效;2021.12.14#公开

摘要：本发明公开的基于协方差度量因子的特征选择方法，在原有的三角比较度量算法TCM的基础上，引入协方差度量因子的概念，通过计算特征词与类别的协方差值，在文档频率层面进一步衡量特征与类别之间的相关性。验证本发明的性能时使用朴素贝叶斯算法进行分类操作，并使用宏F1和微F1对分类效果进行评估。本发明可以更好地筛选出与类别高度相关的特征词，是一种可靠的特征选择算法，提高了分类的准确率与效率。

主权项：1.基于协方差度量因子的特征选择方法，其特征在于，包括以下步骤：步骤1、选取不同的文本类型数据集进行预处理操作，利用向量空间模型对文本数据进行表示，将数据中出现的文档数多于总数的25％或少于3篇的特征词去掉，之后将数据集划分为训练集和测试集；步骤2、设置最优特征子集的大小为C，使用特征排序函数计算训练集数据每个特征词的得分，按照分数对特征词进行降序排列，选择排名为前C的特征词作为最优特征子集的元素，根据得到的最优特征子集分别完成对训练集和测试集数据的降维处理；具体包括以下步骤：步骤2.1、根据公式1计算训练集特征词ti与类别ck的协方差度量因子covti,ck；式1中，tp表示类ck中特征词ti出现的文档数量，fn表示类ck中特征词ti没有出现的文档数量，fp表示非ck类中特征词ti出现的文档数量，表示数据集的文档总数；步骤2.2、根据公式2计算训练集特征词ti的三角比较度量因子TCMti,ck得分；TCMti，ck＝2maxsin2θ，cos2θ-1m|tpr-fpr|2式2中，tpr和fpr分别表示特征词ti在类ck中的真正率和假正率θ表示特征词ti对应的向量tpr,fpr与距离最近的坐标轴之间的夹角，参数m控制着TCM算法中三角度量因子对特征词整体分数的影响；步骤2.3、根据公式3计算特征词ti的全局得分COV-TCMti，得到带有权值的特征集合；式3中，k表示类别编号，Pck表示属于类ck的文档数量在整个数据集中所占的比例；步骤2.4、根据训练集中每个特征词的COV-TCM得分对特征进行降序排序，选择排名前C的特征词作为最优特征；步骤2.5、分别对训练集和测试集数据进行处理，删去文档中最优特征子集不包含的特征词，保留最优特征子集包含的特征词，得到降维处理的训练集数据Dtrain和测试集数据Dtest；步骤3、利用步骤2得到的训练集数据Dtrain对朴素贝叶斯分类器进行训练，并将训练好的模型对测试集数据Dtest中的每一个样本x预测其对应的类别完成对降维后的测试集样本的分类操作；具体包括以下步骤：步骤3.1、根据公式4计算训练集中类别ck的先验概率式4中，Nk表示类ck中所包含的文档总数，N表示数据集的文档总数；步骤3.2、根据公式5计算训练集中类别ck的样本均值式5中，Dk表示类别为ck的文档的集合，Dk＝{xj|yj＝ck}，xj表示Dk中第j个文档，yj表示样本xj对应的标签；步骤3.3、根据公式6计算训练集中类别ck的居中数据矩阵Zk；步骤3.4、根据公式7计算训练集中类别ck针对特征ti，i＝1,2,…,C的方差；式7中，Zki表示类别ck中特征ti的居中数据，C表示降维后的训练集样本特征维度大小；步骤3.5、根据公式8和9对测试集数据中样本x，x＝{t1,t2,…,tC}进行类别的预测，返回具有最大后验概率的类，即样本对应的类别完成对测试集样本的分类操作；

全文数据：

权利要求：

百度查询：广东云熹科技有限公司基于协方差度量因子的特征选择方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种铁路货车下侧门密封结构

下一篇：一种自行车加工用的浸漆设备

相关技术

一种铁路货车下侧门密封结构

一种自行车加工用的浸漆设备

水力发电系统

一种水泥混凝土强度检测装置

一种防滑脱热奄理疗装置

圆管打磨除锈装置

一种通信工程用便携式光缆切割装置

一种热成型侧壁斜楔成型设备及其成型方法

一种具有减震保护机构的新能源电池安装支架

电池端面检测装置

一种电缆生产批量切割装置

一种CT球管测试固定工具

度量相关技术

一种广告效果的度量方法及装置_北京国双科技有限公司_202310098162.2

园区能源调度量预测方法和装置_国网河北省电力有限公司营销服务中心_202410581777.5

一种问诊进度量化方法及系统_脉景(杭州)健康管理有限公司_202410483324.9

混合精度量化方法、装置、设备、介质及程序产品_亿咖通(湖北)技术有限公司_202410564116.1

一种用于测量产品发酵状态的度量尺及组合_浙江一鸣食品股份有限公司_202323108066.6

大语言模型混合精度量化方法、装置、电子设备及介质_清华大学_202410432849.X

一种信息安全度量方法和系统_山东幻科信息科技股份有限公司_202410831139.4

一种度量式果树拍照和投影的幕布装置_北京市农林科学院_202420097520.8

一种基于计算任务重构的GPU计算单元数量自动度量方法_北京麟卓信息科技有限公司_202410489409.8

使用基于分段的度量的路由的装置、方法和介质_128技术公司_202410364373.0

因子相关技术

电网碳排因子计算方法、系统、计算机设备及存储介质_北京市计量检测科学研究院_202311031310.5

消毒器工作时消毒因子实时检测方法及装置_常州明阳软件科技有限公司_202010727518.0

一种水凝胶因子、水凝胶及其制备方法、水凝胶的应用_齐齐哈尔大学_202310807813.0

因子XI A2结构域结合抗体和其使用方法_里珍纳龙药品有限公司_202280084047.3

基于瓦片分区的雷达反射率因子组网定量降水估测方法_北京城市气象研究院_202410671438.6

确定高糖微环境下抑制细胞迁移的趋化因子及机制的方法_武汉市第三医院_202410474803.4

获得校准因子的方法、环境光传感器、存储介质及终端_歌尔科技有限公司_202111104807.6

一种考虑多种气象因子的电网故障预测方法及系统_无锡学院_202410879277.X

一种缓释细胞因子的微孔水凝胶及其制备方法和应用_广州医科大学附属第一医院(广州呼吸中心)_202410529235.3

基于自适应补偿加权因子的RCS提取方法、系统和程序产品_西安瀚博电子科技有限公司_202410562614.2

特征相关技术

基于TBM掘进特征和振动特征参数的围岩等级感知方法_石家庄铁道大学_202410642419.0

特征点筛选方法、装置和电子设备_北京字跳网络技术有限公司_202310103202.8

图像中特征计量的参数估计_FEI公司_201911112891.9

一种图像特征检测方法及系统_哈尔滨工业大学_202410116939.8

利用特征级联算法反演水深的方法_海南师范大学_202410490021.X

多视角特征聚合的目标检测方法_中国科学技术大学_202410565082.8

一种心电图图像特征提取方法_中国人民解放军空军军医大学_202410634217.1

汽车车轮定位视觉检测点特征靶标_吉林大学_202420106776.0

一种人体手掌特征图像采集装置_斯佰特仪(北京)科技有限公司_202410074686.2

一种计算导体目标特征模的方法_南京航空航天大学_202111529087.8

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于协方差度量因子的特征选择方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务