买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:清华大学
摘要:本发明涉及数据清洗技术领域,公开了一种贸易实物量数据清洗方法、装置、设备及介质,其中方法包括:按照预设数据格式获取预设类型的产品贸易数据,并对产品贸易数据进行初始化处理;按照预设统一规则对初始化后产品贸易数据进行统一,并按照预设筛选原则对统一后的产品贸易数据进行筛选,识别出缺失值数据及异常值数据;对缺失值数据及异常值数据进行分项,根据分项结果选取对应预设清洗算法,并对不同项的缺失值数据或异常值数据进行数据修正。本发明通过对缺失值数据及异常值数据进行分项,选取对应的清洗算法进行数据清洗,能够提高清洗过程的灵活性,提升清洗效率,保证最小修改的清洗结果接近真实值,满足后续数据分析的多元化需求。
主权项:1.一种贸易实物量数据清洗方法,其特征在于,所述方法包括:按照预设数据格式获取预设类型的产品贸易数据,并通过对所述产品贸易数据进行初始化处理,来删除与预设类型无关的数据;按照预设统一规则对初始化后产品贸易数据进行统一,并按照预设筛选原则对统一后的产品贸易数据进行筛选,若所述产品贸易数据中的贸易数量、贸易金额及贸易净重量均为零或者空白,则为缺失值数据;若所述产品贸易数据中的贸易数量、贸易金额及贸易净重量部分缺失,或贸易数量或贸易金额存在异常情况,则为异常值数据,其中,若所述产品贸易数据具有贸易金额但缺失贸易数量或贸易净重量则为第一类异常值数据,若所述产品贸易数据具有贸易数量或贸易净重量但缺失贸易金额则为第二类异常值数据,若存在异常情况则为第三类异常值数据,所述异常情况,包括:第一异常情况:相同国家间的贸易中,同一个双边产品的贸易数量高于其他年份中位数的预设倍数;第二异常情况:相同国家间的贸易中,同一个双边产品的贸易单位价值高于其他年份中位数的预设倍数,所述贸易单位价值表征单位产品贸易价值,为所述贸易金额与所述贸易数量的比值;第三异常情况:不同国家间的贸易中,同一双边产品的贸易单位价值高于同一年内贸易单位价值中位数的预设倍数;若同时满足以上三种异常情况,则为第三类异常值数据,否则视为正常数据;对所述缺失值数据及异常值数据进行分项,根据分项结果选取对应预设清洗算法,并对不同项的缺失值数据或异常值数据进行数据修正;所述对所述缺失值数据及异常值数据进行分项,根据分项结果选取对应预设清洗算法的过程包括:根据缺失值数据及异常值数据的数据缺失和异常情况,将第一类异常值数据及第二类异常值数据作为第一项数据,将所述缺失值数据及第三类异常值数据作为第二项数据;对于第一项数据,采用单位价值法进行修正,其过程为:获取对应第一类异常值数据或第二类异常值数据相对应两个贸易伙伴国家前一年的第一单位价值及后一年的第二单位价值,并获取该条数据报告国当年相同贸易流向的单位价值平均值,选取所述第一单位价值、第二单位价值及单位价值平均值之间的中位数作为该国与伙伴国家贸易的单位价值,基于所述单位价值计算与所述第一类异常值数据的贸易金额所对应的贸易数量或贸易净重量,或与所述第二类异常值数据的贸易数量或贸易净重量所对应的贸易金额;对于第二项数据,采用单位价值法及回归模型进行修正,其过程为:构建所述贸易数量或贸易金额与贸易年份之间的函数拟合模型,并通过预设回归模型计算所述函数拟合模型的模型参数,通过将所述模型参数带入所述函数拟合模型来获得与贸易年份相对应的贸易数量或贸易金额,并基于所获得的贸易数量或贸易金额,采用单位价值法对所述产品贸易数据中除贸易数量或贸易金额之外的其他数据进行修正。
全文数据:
权利要求:
百度查询: 清华大学 一种贸易实物量数据清洗方法、装置、设备及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。