买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:杭州电子科技大学
摘要:本发明公开一种基于概率密度聚类的数据清洗方法及装置。本发明从基于层级聚类模型预测数值型错误数据出发,利用数据的概率密度求出数据的特征向量,再根据特征向量来进行模型训练和预测,提高了错误数据的预测精准度,并且人工参与的工作量较小,工作复杂度较低;在利用概率密度求特征向量的过程中,设置的阈值精度较高,个数较多,使本方法具有的一定的泛化型。
主权项:1.一种基于概率密度聚类的数据清洗方法,采用以下步骤实现:步骤1、从数据库中按列抽取数值型元数据;步骤2、对抽取的数值型元数据按照列求出其概率密度;具体是:2-1对于第j列数值型元数据,将其所有元素组成集合Uj,将所有不同的元素值组成集合Dj;2-2假定数值型元数据满足正态分布,则根据公式1求出所有数值型元数据的概率密度; 其中x∈Dj,μ为Dj内所有元素的平均值,σ为Dj的方差;步骤3、根据概率密度对数值型元数据进行预处理,构建训练集;3-1根据公式2计算加权平均概率密度;根据公式3计算加权平均概率密度和各数值型元数据的概率密度的比值pxk; 其中xi∈Dj表示集合Dj中的第i个元素,fxi为xi的概率密度值,dxi表示xi在Uj中出现的次数,n为Dj中元素的个数,a为Dj中所有元素的概率密度的加权平均值,xk∈Uj表示集合Uj中的第k个元素,fxk为xk在Dj中对应的相同的值的概率密度;3-2根据经验设置阈值集合T={t1,t2,...,tm},其中所有阈值按照从小到大排布,m为自定义阈值数量;利用阈值对Uj中每个元素xk构建特征向量Fk=[f1,f2...fm]; 其中1≤l≤m;3-3将Uj中所有元素的特征向量按照层级聚类分为y类;3-4从每个聚类中随机选择1个元素进行标注,标注为正确数据或错误数据;由标注后的y个元素构成训练数据集;步骤4、构建二分类的数据检测分类器,并利用训练数据集的特征向量和标注结果进行训练;步骤5、利用训练好的分类器实现对数值型元数据的错误检测;步骤6、对步骤5检测出的错误数据进行修复。
全文数据:
权利要求:
百度查询: 杭州电子科技大学 一种基于概率密度聚类的数据清洗方法及装置
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。