基于负载均衡的知识图谱分布式海量数据导入方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：北京大学

摘要：本发明涉及一种基于负载均衡的知识图谱分布式海量数据导入方法，属于知识图谱数据导入技术领域，所述方法包括以下步骤：S1、搭建Spark分布式计算集群；S2、解决Janusgraph与Spark的jar包依赖冲突和版本冲突，使用SparkGraphComputer接口进行连接测试；S3、调研Spark进行图数据批量导入作业所擅长处理的输入文件格式，按照所述文件格式生成数据；S4、根据数据导入完整性和数据导入速度调整对Spark集群worker节点的资源分配，优化导入速度；S5、对数据中的超级节点进行切分和负载均衡，加速对超级节点数据的导入。本发明提供的方法通过分布式计算能够大幅度提升数据导入效率，通过基于节点切分的负载均衡方法使得对于超级节点数据导入实现并行化，最终达到对于超级节点数据的高效导入。

主权项：1.一种基于负载均衡的知识图谱分布式海量数据导入方法，包括以下步骤：S1、搭建Spark分布式计算集群；S2、解决Janusgraph与Spark的jar包依赖冲突、版本冲突，使用SparkGraphComputer接口进行连接测试；S3、调研Spark进行图数据批量导入作业所擅长处理的输入文件格式，按照所述文件格式生成数据；S4、根据数据导入完整性和数据导入速度调整对Spark集群worker节点的资源分配，优化导入速度；S5、对数据中的超级节点进行切分并且进行负载均衡，加速对超级节点数据的导入，具体为：将具有多条边属性的一个节点的一行拆成多行，将所述文件按照Executor的数量进行分块，保证每块包含的边的数量加属性的数量一致，构造GraphSon-Average文件，使得工作负载平均分配到多台机器上。

全文数据：

权利要求：

百度查询：北京大学基于负载均衡的知识图谱分布式海量数据导入方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种开合方便的杯盖及应用该杯盖的水杯

下一篇：一种折叠式无线充支架的走线结构

相关技术

一种开合方便的杯盖及应用该杯盖的水杯

一种折叠式无线充支架的走线结构

智能抖动自动装盘上料设备

铁路平板车用移动端板

一种磷石膏基生态修复材料淋溶水回收设备

一种饲料加工粉碎装置

一种可自动收展的军用帐篷

一种分体式水杯

一种简易灌肠装置

一种玉米收获机的防混合出料装置

一种移动可调节护栏钢筋绑扎安全胎架

一种用于固化渣土的螺旋输送机

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于负载均衡的知识图谱分布式海量数据导入方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务