首页 专利交易 科技果 科技人才 科技服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于大数据架构的Wifi探针设备管控系统 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:中国电子科技集团公司第五十四研究所;成都博纳神梭科技发展有限公司

摘要:本发明公开了一种基于大数据架构的Wifi探针设备管控系统,涉及技术侦察和大数据技术领域。其包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统和网络交换机。本发明实现了一种分布式存储、内存式计算、高速实时比对和实时态势展示的基于大数据架构的Wifi探针设备管控系统,具有功能丰富、性能高效、配置灵活、可扩充能力强等优点,特别适合技术侦察和大数据技术领域中利用海量Wifi探针数据的场景,可针对重点人员的行为轨迹进行精准刻画和实时态势展示,具有较强的推广应用价值。

主权项:1.一种基于大数据架构的Wifi探针设备管控系统,其特征在于,包括Wifi探针设备集群子系统、单向光闸、数据接入子系统、业务应用子系统、数据集群子系统、网络交换机;所述Wifi探针设备集群子系统用于采集海量Wifi探针数据;所述单向光闸用于实现海量Wifi探针数据的单向传输;所述数据接入子系统提供对海量Wifi探针数据的分布式接入、分布式存储、内存式分析计算与分布式推送服务;数据接入子系统部署在数据集群子系统,依靠数据集群子系统的硬件资源,一方面对实时性要求较高的日志文件进行实时解析、分析计算并存储至数据集群子系统;另一方面对实时性要求不高的日志文件首先存入数据接入子系统后再进行离线解析、分析计算;所述业务应用子系统用于实现管控系统的管理配置、数据统计分析及结果展示;所述数据集群子系统用于提供海量Wifi探针数据的分布式接收、分布式存储及内存式分析计算的硬件资源;所述网络交换机用于实现数据集群子系统、数据接入子系统和业务应用子系统之间的网络连接;所述的数据接入子系统包括Flume模块、Kafka模块、HDFS模块、Spark模块、Hive模块和Presto模块;所述Flume模块包括Event、Channel和Sink,用于实时收集并接收海量Wifi探针数据;Flume模块首先将日志化的加密探针数据建模抽象化成Event单元,利用Channel的队列功能将Event单元队列化并简单缓存,Sink随后取出Channel中数据并实时传递给Kafka模块;其中,Flume模块启动2个Agent,Channel中单次取Event的最大参数transactionCapacity设置为50000,内存中允许存放的所有Event字节的最大参数byteCapacity设置为15000000,Sink中单次取Event的最大参数batchSize设置为50000;所述Kafka模块包括Producer、Consumer和Topic,用于实时写入或读出数据;在写入数据阶段,Producer接收Flume模块传递的数据,将数据按照协议数据和用户数据进行分类并传递给Topic,Topic或者通过下一跳的Flume模块将数据实时传递给HDFS模块进行文件式存储,或者将数据传递给Spark模块进行数据实时解析;在数据读出阶段,Consumer订阅接收Topic传递的数据,并将数据进一步传递给Presto用以数据消费;其中,最大消息大小设置为10MB,数据消费默认超时时间设置为100ms;所述HDFS模块包括NameNode、DataNode和JournalNode,用于分布式存储海量探针数据并提供高吞吐量的数据访问;NameNode接收Flume模块传递的数据,对数据进行分块化处理并将数据存储至DataNode,NameNode对DataNode进行管理并提供其与数据块之间的映射关系,JournalNode对整个数据存储访问过程的成功与否进行监督;其中,HDFS文件块大小设置为128MB,每个文件块配置2块文件副本;所述Spark模块用于实现基于内存的分布式计算,对探针数据进行解析、分析计算;其中,对于数据实时解析、分析计算的情况,运行1个Spark任务,并为其配置3GB内存空间和2个CPU核;对于数据离线解析、分析计算的情况,运行20个Spark任务,并为其配置12GB内存空间和4个CPU核;所述Hive模块包括HiveServer、MetaStore和DBService,用于提供大数据平台批处理计算能力,通过Spark模块实现对海量探针数据的实时离线数据解析、分析计算;对于实时性要求较高的情况,对Kafka模块实时接收的数据进行数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对Kafka模块接收的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;对于实时性要求不高的情况,对HDFS模块中已存储的文件进行离线数据解析、分析计算,具体方式为,HiveServer首先响应任务并通过MetaStore和DBService对HDFS模块中相应的数据进行存取,生成Spark任务并提交给Spark模块进行数据解析、分析计算,将结果存入Hive模块的分布式数据库表;其中,根据采集的探针数据特点,建立协议数据Hive库表和用户数据Hive库表分别对协议数据和用户数据进行存储,进一步提升数据查询、检索的效率;所述Presto模块包括Client、Coordinator、Metastore和Worker,用于大数据级别分布式的查询引擎;业务应用子系统通过Client下发查询请求,Client通过Coordinator生成执行计划、分发执行任务并通过Metastore读取任务数据的存储位置信息,最后将任务信息和存储信息统一提交给Worker执行查询任务;查询结果放入内存并由业务应用子系统调用并展现;其中,Prestomaster端的max-memory设置为60GB,最大线程数max-worker-threads设置为10;slave端的max-memory设置为64GB,slave端的最大线程数max-worker-threads设置为10。

全文数据:

权利要求:

百度查询: 中国电子科技集团公司第五十四研究所 成都博纳神梭科技发展有限公司 一种基于大数据架构的Wifi探针设备管控系统

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。