买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:鞍钢集团自动化有限公司;鞍钢股份有限公司
摘要:本发明涉及一种基于K‑近邻算法的数据资产智能分类的方法,包括如下步骤:1抽取来自于源系统元数据信息,包括表元数据信息以及列元数据信息;2元数据注释补充与完善精细化处理;3样本数据资产分类标签识别;4特征数据元构建与标准化;5模型数据划分;6模型训练;7基于最优K近邻算法模型进行数据资产类型的自动划分;本发明基于表、列元数据进行深度处理后,基于K近邻算法的数据资产分类模型,对数据资产进行智能分类,大大提高了数据资产分类的效率,为后续的数据资产分类分级管理提供强有力的支撑。
主权项:1.一种基于K-近邻算法的数据资产智能分类的方法,其特征在于,包括如下步骤:1抽取来自于源系统元数据信息,包括表元数据信息以及列元数据信息;2元数据注释补充与完善精细化处理:对元数据的完整性、一致性进行检查,针对中文注释空值情况进行补充,为后续模型准确度提供质量保证;3样本数据资产分类标签识别:针对表、列元数据和数据资产分类标签的识别;4特征数据源构建与标准化,包括获取特征数据元、构建特征矩阵和特征编码;5划分模型数据:分为训练集和测试集;6模型训练:1训练KNN模型:使用划分好的训练集数据及其对应的数据资产分类标签,通过K近邻KNN算法尝试不同的邻居数量K值,根据K值的不同,实例化KNN分类器,并使用训练数据对模型进行拟合;2模型评估:在独立的测试集上评估模型性能,计算不同的k取值情况下,模型输出的分类结果与实际分类结果之间的匹配程度;7模型应用:基于最优K近邻算法模型进行数据资产类型的自动划分。
全文数据:
权利要求:
百度查询: 鞍钢集团自动化有限公司 鞍钢股份有限公司 一种基于K-近邻算法的数据资产智能分类的方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。