基于多源数据信息数字化管理系统及方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

摘要：本发明公开了基于多源数据信息数字化管理系统及方法，涉及信息数字化管理技术领域，本发明通过自适应数据接口和自动模式提取，实现数据接口的自动化配置和新数据源的快速适应，减少人工干预，提高数据处理的自动化程度和效率；利用自监督学习模型自动识别并清洗数据中的噪声和异常值，并通过预训练模型实现数据的自动标准化处理，显著提升数据质量和处理效率，同时通过自监督学习模型对非结构化数据进行自动标注，并根据标注结果生成数据转换规则，统一不同格式的数据，提高标注和转换的自动化程度，并采用分布式存储技术，并基于全文检索技术建立高效的数据索引和检索机制，显著提高数据存储和检索效率，满足大规模数据管理的需求。

主权项：1.基于多源数据信息数字化管理方法，其特征在于，包括：步骤1.城市项目数据采集，进行数据源识别，识别智能城市中各部门和系统的多源数据，包括交通传感器数据、环境监测数据、能源消耗数据、社交媒体数据；数据接口采用自适应数据接口，自动适应新加入的数据源；采用自监督学习算法，自动识别并清洗数据中的噪声和异常值，并利用智能数据转换工具，根据预训练模型自动进行数据标准化处理；步骤2.数据标注转换，采用自监督学习模型对非结构化数据，包括文本、图像进行自动标注；根据自动标注结果，生成数据转换规则，统一不同格式数据；步骤3.数据存储管理，采用分布式存储技术进行数据储存，并基于全文检索技术建立数据索引和检索机制；步骤4.数据协同分析，搭建联邦学习平台，各机构在本地训练模型，仅共享模型参数，不传输原始数据；中央服务器聚合各机构上传的模型参数，更新全局模型；步骤5.数据质量监控溯源，部署智能合约，进行自动化数据质量检查和审计；在数据生成、传输和处理的每个环节生成哈希值，并记录在区块链中；步骤1中，构建自适应数据接口方式为：定义每个数据源Di的特征向量Xi，包括结构化数据、半结构化数据以及非结构化数据，Xi＝[xi1,xi2,...xij]，其中，xij是第i个数据源的第j个特征，j同时表示特征数量；使用支持向量机SVM进行训练分类模型，分类模型的分类器C决策函数为：其中X表示待分类的数据特征向量，αj为支持向量的权重，yj为支持向量的标签，KX,Xj表示核函数，用于计算特征向量之间的相似性，b为偏置项；训练过程包括：收集已标注的训练数据、提取特征向量、训练SVM模型；进行模式提取，识别数据源的结构和格式信息，设数据源Di的模式为Si；对于结构化数据，提取表结构和字段信息：Si＝{Fieldj,todj|j＝1,2,...,n}，此处Fieldj,todj分别表示第j个特征的字段名和数据类型；对于半结构化数据，提取节点和属性信息：Si＝{Nodej|j＝1,2,...,n}，此处Nodej表示第j个特征的节点名；对于非结构化数据，使用自然语言处理NLP技术提取文本特征：Si＝{Keywj|j＝1,2,...,n}，此处Keywj表示第j个特征的关键字；根据提取的模式Si，生成数据转换规则Ti；步骤1中，构建自适应数据接口方式还包括：利用上下文无关文法CFG表示数据转换规则：G＝N,Σ,P,S，此处N为非终结符集合，Σ为终结符集合，P为生成规则集合，S表示开始符号；应用生成的转换规则Ti，将数据源数据Di转换为目标格式数据Di′；步骤1中数据标准化处理方式为：初步清洗数据，去除空值和重复数据，从原始数据提取特征，设时间序列数据集为X＝{x1,x2,...xi}，其中xi表示第i个样本的特征向量；对于每个样本，构建模型输入，采用BERT模型将时间序列数据转化为模型格式：Inputxi＝[CLS]+Tokenizexi+[SEP]，此处Tokenizexi表示将特征向量转化为模型输入，[CLS],[SEP]分别表示输入的开始和结束；采用掩码语言模型MLM进行掩码操作，设输入序列为随机选择部分标记进行掩盖：采用最大化掩盖标记的预测概率进行训练，设是模型对掩盖标记xij的预测概率，损失函数定义为：其中LMLM为掩码语言模型的损失函数，n为样本数，masked为掩盖标记的索引集合，表示模型预测的概率；总损失函数结合掩码语言模型损失，即L＝LMLM，此处L表示总损失函数；使用优化算法Adam最小化总损失函数，对模型参数进行更新：θ*＝argminθL，θ*表示训练后的模型参数；利用训练好的自监督学习模型检测数据中的噪声和异常值；对于每个样本，计算模型预测值和真实值之间的残差：residuali表示第i个样本的残差；进行计算残差，将超过阈值的残差认为异常值；然后使用智能数据转换工具，根据预训练模型自动进行数据标准化处理；进行均值归一化和Zscore标准化，再使用预训练模型对新数据进行标准化处理。

全文数据：

权利要求：

百度查询：比塔(上海)数据科技有限公司基于多源数据信息数字化管理系统及方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

相关技术

相关技术

相关技术

相关技术

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于多源数据信息数字化管理系统及方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务