买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中建三局总承包建设有限公司;中建三局集团有限公司;中移系统集成有限公司
摘要:本发明公开了一种节省存储空间的数据持续聚类方法、系统及存储介质,其方法步骤为;对单个数据进行记录,新增并存储一个类别,记录类别参数:根据记录的若干个数据X,进行循环与每个类别进行计算,计算标准差数并进行比较,找到最小的标准差数对应的类别;基于所得到的标准差数进行判断,若是如果标准差数≤2,则对当前的类别参数进行修改;新增一个类别,并对这个类别增加单个数据的记录。本发明有益效果:本发明适用于各种低性能、低存储环境下的持续的数据采集;实现了在低性能、低存储空间环境下,对持续输入的连续数据进行聚类并存储结果。
主权项:1.一种节省存储空间的数据持续聚类方法,其特征在于:其方法步骤为:S1、对单个数据进行记录,新增并存储一个类别,记录类别参数;S2、根据记录的若干个数据,进行循环与每个类别进行计算,计算标准差数并进行比较,找到最小的标准差数对应的类别;S3、基于所得到的标准差数进行判断,若是如果标准差数≤2,则对当前的类别参数进行修改;S4、新增一个类别,并对这个类别增加单个数据的记录;其中步骤S1中的数据记录方法为:S11、通过数据更新层将应用系统的记录数据封装为符合统一规范的数据包结构;S12、通过消息处理层将所述数据包结构封装为统一格式的消息;S13、通过接口处理层发送所述消息到指定的存储设备;S14、取每一个数据包结构结果对应的熵载中的最大熵载,最大熵载对应的数据包结构结果为数据记录结果;其中熵载的计算方法为: 其中,amj为序列{amj}中的第m个项,{amj}为第j个维度的数据vj之间的差值按照从小到大的顺序排列而成的序列,a为对数函数的底数,a>1,熵载Iamj表示vj取序列{amj}中第m个项amj进行聚类所得第一聚类结果所承载的平均信息量的大小;n为vj取序列{amj}中第m个项amj进行聚类所得第一聚类结果包含的数据集合数;ki为第i个数据集合中元素的个数,N为数据的总个数,pi为第i个数据集合中元素的个数与数据的总个数的比值;熵载表示本次聚类所得聚类结果所承载的平均信息量的大小,越大表示本次聚类结果中每个数据类别的平均信息量越大,则每个数据类别所对应的编码所能存储的平均信息量越大,每个数据类别所对应的编码的信息表达效率也越高,对于存储空间一定的计算机系统,其所能存储的信息量越大;其中步骤S1中的类别参数包括有平均值U、标准差S和数量N;其中步骤S1类别参数的平均值=输入值,标准差S=0,数量N=1;其中步骤S2的计算方法为:S21、计算标准差数D=|X-US|,如果S=0,则直接将结果记为D=∞;S22、比较各个类别的D,找到最小的D对应的类别;其中D为标准差数,X为数据,U为平均值;S为标准差;其中步骤S3的的标准差数的界限根据实际需要进行调整;其中步骤S3中的类别参数修改公式为: 其中U为平均值,X为数据个数,S为标准差,N为数量;其中标准差数的范围为0.1-3。
全文数据:
权利要求:
百度查询: 中建三局总承包建设有限公司 中建三局集团有限公司 中移系统集成有限公司 一种节省存储空间的数据持续聚类方法、系统及存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。