买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明公开了一种基于数据治理的高质量数据管理系统,具体涉及数据治理领域,包括业务数据采集模块、业务数据转换模块、数据资源整合模块、数据质量基础评估模块、综合数据质量评估指标计算模块、数据质量判断模块、数据治理报告输出模块、数据库,以及处理器。一种基于数据治理的高质量数据管理系统通过对各种数据类型制定统一的数据格式标准,并整合目标业务领域的现有数据集与数据来源,有效管理多源异构的数据;通过分析并基于各得分函数值计算综合数据质量评估指标,从而应对数据质量参差不齐的问题;通过建立数据质量监控机制,定期调整、检查和评估阈值范围,及时发现和处理新出现的数据质量问题,提高数据的可靠性和价值。
主权项:1.一种基于数据治理的高质量数据管理系统,其特征在于,包括:业务数据采集模块:用于从不同的业务数据源中采集多种数据格式的数据,并将采集的数据封装成数据集传输至业务数据转换模块;业务数据转换模块:用于对传输的数据集进行预处理,使用条件过滤和正则表达式匹配方法对各数据集中的数据转换成统一格式的目标业务领域的现有数据集,并传输到数据资源整合模块;数据资源整合模块:用于整合目标业务领域的现有数据集与数据来源,并按数据性质及用途进行分类,选择合适的存储技术存储经过分类的数据集,并将不同存储技术中的数据集发送至数据质量基础评估模块;数据质量基础评估模块:用于分析传输的数据集并计算出一致性得分函数值、准确性得分函数值、完整性得分函数值,以及时效性得分函数值,传输到综合数据质量评估指标计算模块;所述数据质量基础评估模块包括数据质量接收单元、数据特征提取单元、一致性得分计算单元、准确性得分计算单元、完整性得分计算单元、时效性得分计算单元,以及数据质量输出单元,基础评估具体处理过程如下:数据质量接收单元:接收数据整合模块传输的目标数据集;数据特征提取单元:验证目标数据集已进行预处理,并提取目标数据集中的数值型数据,记录目标数据集中数据点总数、目标数据集中第j个数据点的值、目标数据集中的第j个数据点记录的时间、设定分析的时间以及目标数据集覆盖的时间范围,分别记作n、xj、tj、t、以及Δt;通过机器学习算法统计目标数据集中缺失值的总数和异常值的总数,分别记作ITn、IFn;计算目标数据集中所有数据点的平均值、目标数据集中所有数据点的标准差、目标数据集中的数据趋势指标,以及目标数据集中的数据变化率,分别记作μ、σ、β0、β1;进一步,目标数据集中所有数据点的平均值具体计算公式为: ;目标数据集中所有数据点的标准差具体计算公式为: ;目标数据集中的数据趋势指标具体计算公式为: ;目标数据集中的数据变化率具体计算公式为: ;一致性得分计算单元:由目标数据集中数据点总数n、目标数据集中第j个数据点的值xj、目标数据集中所有数据点的平均值μ,以及目标数据集中所有数据点的标准差σ,计算目标数据集的数据凝聚度指标MO,具体计算公式为: ,其中j表示为数据集的索引;由目标数据集中的数据趋势指标β0、目标数据集中的数据变化率β1、设定分析的时间t,以及目标数据集的数据凝聚度指标MO,计算目标数据集中数据的时间相关性趋势指标TR,具体计算公式为:TR=β0+β1×t+MO;由目标数据集的数据凝聚度指标MO、目标数据集中数据的时间相关性趋势指标TR、以及目标数据集中第j个数据点的值xj,计算一致性得分函数值C,具体计算公式为: ,其中,n表示目标数据集中数据点总数,j表示数据点的索引;准确性得分计算单元:由目标数据集的数据凝聚度指标MO、F1分数、以及目标数据集中第j个数据点的值xj、计算准确性得分函数值A,具体计算公式为: ,其中F1分数指的是统计学的指标,最大值是1,最小值是0;完整性得分计算单元:由目标数据集中数据点总数n和目标数据集中缺失值的总数ITn,计算目标数据集中数据缺失值的比例IT,具体计算公式为:IT=ITn;由目标数据集中数据点总数n和目标数据集中异常值的总数IFn,计算目标数据集中数据异常值的比例IF,具体计算公式为:IF=IFn;由目标数据集中数据的时间相关性趋势指标TR、目标数据集中数据缺失值的比例IT、以及目标数据集中数据异常值的比例IF,计算完整性得分函数值I,具体计算公式为: ;时效性得分计算单元:由设定分析的时间t、目标数据集中的第j个数据点记录的时间tj,以及目标数据集覆盖的时间范围Δt,计算目标数据集的数据时间分数Tj,具体计算公式为:Tj=t-tjΔt;由设定分析的时间t、目标数据集中的第j个数据点记录的时间tj,以及目标数据集覆盖的时间范围Δt,计算目标数据集中的时间因子Tf,具体计算公式为:Tf=exp-Δt×(t-tj;由目标数据集中数据的时间相关性趋势指标TR、目标数据集的数据时间分数Tj,以及目标数据集中的时间因子Tf,计算时效性得分函数值T,具体计算公式为: ,其中,n表示目标数据集中数据点总数,j表示数据点的索引;数据质量输出单元:将计算出的一致性得分函数值、准确性得分函数值、完整性得分函数值,以及时效性得分函数值传输至综合数据质量评估指标计算模块;综合数据质量评估指标计算模块:基于一致性得分函数值、准确性得分函数值、完整性得分函数值,以及时效性得分函数值计算综合数据质量评估指标;所述综合数据质量评估指标计算模块基于一致性得分函数值C、准确性得分函数值A、完整性得分函数值I,以及时效性得分函数值T计算综合数据质量评估指标CAIT的具体计算公式为: ,其中,V表示为数据的价值系数,DMC表示为数据维护成本,αC、αA、αI、αT分别表示为一致性得分的惩罚因子、准确性得分的惩罚因子、完整性得分的惩罚因子,以及时效性得分的惩罚因子;数据质量判断模块:用于判断和监控数据的质量,监测数据质量问题并触发数据迭代策略;数据治理报告输出模块:用于将处理和分析后的数据通过数据可视化工具以报告的格式输出给用户,从而快速做出数据治理决策;数据库:用于存储高质量的数据、存储指令以及管理采集的数据,提供数据的检索和更新功能;处理器:用于执行所述数据库中存储的指令。
全文数据:
权利要求:
百度查询: 福建省金服云征信有限责任公司 一种基于数据治理的高质量数据管理系统
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。