首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种面向云数据分析场景的水平数据分区方法和系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:华中科技大学;济南浪潮数据技术有限公司

摘要:本发明公开了一种面向云数据分析场景的水平数据分区方法,其自适应识别历史查询负载在各属性的热点查询区间、具有局部性的查询模式和离群查询区间,由此对历史查询负载灵活泛化,兼顾未来查询负载与历史查询负载的相似性和差异性;设计了基于概率的成本模型,准确地评估泛化查询负载的开销,并考虑了数据属性间的相关性,以更精确地量化分区动作的收益,从而优化分区决策;设计了基于概率成本模型的两阶段水平分区方法,首先使用轴垂直超平面切割,使得分区方案尽可能细粒度地对齐泛化查询负载,保证数据跳过效率;针对轴垂直超平面切割面对倾斜数据失效的问题,设计了排序二分切割作为补充,增强分区方法鲁棒性的同时,进一步提升数据跳过效率。

主权项:1.一种面向云数据分析场景的水平数据分区方法,其特征在于,包括如下步骤:1获取历史范围查询集合QH,并获取该历史范围查询集合QH在预先建立的数据表中各个属性的查询区间、以及该查询区间出现的频率,并将该历史范围查询集合QH中“≤”类型的范围查询在每个属性的查询区间以及该查询区间出现的频率记录在第一字典leDict中,将该历史范围查询集合QH中“≥”类型的范围查询在每个属性的查询区间及该查询区间出现的频率记录在第二字典geDict中,并将该历史范围查询集合QH中“between”类型的范围查询在每个属性的查询区间及该查询区间出现的频率记录在第三字典btDict中。2根据步骤1得到的第一字典leDict获取历史范围查询集合QH中“≤”类型的范围查询的泛化函数。3根据步骤1得到的第二字典geDict获取历史范围查询集合QH中“≥”类型的范围查询的泛化函数。4根据步骤1得到的第三字典btDict获取历史范围查询集合QH中“between”类型的范围查询的泛化函数;5根据步骤2、3和4得到的泛化函数,对历史范围查询集合QH进行泛化处理,以获取泛化处理后的范围查询集合QG。6根据步骤5泛化处理后的范围查询集合QG对预先建立的数据表中的待分区数据V进行轴垂直超平面切割处理,以获取二叉树;7根据步骤5泛化处理后的范围查询集对步骤6得到的二叉树进行排序二分切割处理,以得到最终的二叉树,该二叉树中的每个叶子节点对应一个水平分区。

全文数据:

权利要求:

百度查询: 华中科技大学 济南浪潮数据技术有限公司 一种面向云数据分析场景的水平数据分区方法和系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

相关技术
相关技术
相关技术
相关技术