一种基于概率密度聚类的数据清洗方法及装置

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：杭州电子科技大学

摘要：本发明公开一种基于概率密度聚类的数据清洗方法及装置。本发明从基于层级聚类模型预测数值型错误数据出发，利用数据的概率密度求出数据的特征向量，再根据特征向量来进行模型训练和预测，提高了错误数据的预测精准度，并且人工参与的工作量较小，工作复杂度较低；在利用概率密度求特征向量的过程中，设置的阈值精度较高，个数较多，使本方法具有的一定的泛化型。

主权项：1.一种基于概率密度聚类的数据清洗方法，采用以下步骤实现：步骤1、从数据库中按列抽取数值型元数据；步骤2、对抽取的数值型元数据按照列求出其概率密度；具体是：2-1对于第j列数值型元数据，将其所有元素组成集合Uj，将所有不同的元素值组成集合Dj；2-2假定数值型元数据满足正态分布，则根据公式1求出所有数值型元数据的概率密度；其中x∈Dj，μ为Dj内所有元素的平均值，σ为Dj的方差；步骤3、根据概率密度对数值型元数据进行预处理，构建训练集；3-1根据公式2计算加权平均概率密度；根据公式3计算加权平均概率密度和各数值型元数据的概率密度的比值pxk；其中xi∈Dj表示集合Dj中的第i个元素，fxi为xi的概率密度值，dxi表示xi在Uj中出现的次数，n为Dj中元素的个数，a为Dj中所有元素的概率密度的加权平均值，xk∈Uj表示集合Uj中的第k个元素，fxk为xk在Dj中对应的相同的值的概率密度；3-2根据经验设置阈值集合T＝{t1,t2,...,tm}，其中所有阈值按照从小到大排布，m为自定义阈值数量；利用阈值对Uj中每个元素xk构建特征向量Fk＝[f1,f2...fm]；其中1≤l≤m；3-3将Uj中所有元素的特征向量按照层级聚类分为y类；3-4从每个聚类中随机选择1个元素进行标注，标注为正确数据或错误数据；由标注后的y个元素构成训练数据集；步骤4、构建二分类的数据检测分类器，并利用训练数据集的特征向量和标注结果进行训练；步骤5、利用训练好的分类器实现对数值型元数据的错误检测；步骤6、对步骤5检测出的错误数据进行修复。

全文数据：

权利要求：

百度查询：杭州电子科技大学一种基于概率密度聚类的数据清洗方法及装置

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种利用发动机余热的“柴油+醇氢”混合燃料动力系统

下一篇：一种缓解水稻镉胁迫的方法

相关技术

一种利用发动机余热的“柴油+醇氢”混合燃料动力系统

一种缓解水稻镉胁迫的方法

一种锑白炉气相冷却结晶装置

一种相变冷板及电力电子器件的散热系统

一种换电式轮胎吊

流沙固定与植被恢复相结合的荒漠化土壤修复方法

一种线芯耐压迫的复合光缆及制备方法

一种阴离子交换膜的制备方法及其应用

一种基于动态高程图的行车自动作业方法及系统

一种基于分解液闪蒸技术的苯酚制备方法

一种提高弧齿锥齿轮的承载结构

一种新能源汽车用散热型电缆

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

一种基于概率密度聚类的数据清洗方法及装置

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务