首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种流式地理轨迹数据的治理方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:北京计算机技术及应用研究所

摘要:本发明涉及一种流式地理轨迹数据的治理方法,属于大数据领域。本发明针对流式地理轨迹数据的特点,提供了一种基于大数据的实时关联计算方法,能够有效对极大峰值的地理轨迹数据进行“消峰”处理、并发计算、实时转发、高效读写等服务。同时,通过引入轨迹目标字典完成了对实时流式地理轨迹数据的匹配,使杂乱的流式地理轨迹数据可按目标分类存储到数据库中形成历史数据。在历史轨迹数据处理过程中,通过轨迹合并,解决了批号突变问题。在目标维护模块,通过巧妙的缓冲时间设计和关键字拆分,视图映射,完成了同义词匹配和高效的数据同步功能。本发明对外提供高精度实时数据推送服务和多维度的历史数据查询服务。

主权项:1.一种流式地理轨迹数据的治理方法,其特征在于,该方法包括实时流式地理轨迹数据治理、历史地理轨迹数据治理和目标字典维护三大模块;实时流式地理轨迹数据治理模块:对实时流式地理轨迹数据进行了引接、处理和转发;对实时流式地理轨迹数据进行数据过滤、目标匹配、属性补充和落地存储,继续对外推送,提供准实时数据服务;历史地理轨迹数据治理模块:基于大数据的分布式存储计算技术,对落地存储的历史数据进行轨迹合批、合并、去重、平滑、校正、打标,得到场景化的数据集合,而后通过数据服务的形式,对外提供目标活动查询服务;目标维护模块:为实时流式地理轨迹数据治理模块和历史地理轨迹数据治理模块提供字典数据,把相同目标,不同命名的轨迹点识别为同一目标,实现目标归一化;其中,所述实时流式地理轨迹数据治理模块包括九个流程:数据引接、原始数据落地、数据过滤、目标匹配、实时消批、历史数据落地、索引数据存储、事件触发和数据推送;数据引接:是实时流式地理轨迹数据治理模块的数据输入层,如果外部数据源为UDP数据包,则通过工具包,解析数据包,并将解析后的数据推送到消息队列中,再通过主题引接实时轨迹数据;也可以直接将外部数据源接入消息队列,实现实时轨迹数据数据引接;得到数据后,经过字段映射、中英文映射,将流式地理轨迹数据转换为结构化数据;原始数据落地存储:将实时流式地理轨迹数据落地存储到数据库中,作为备份数据;数据过滤:通过自定义规则,实时对流式轨迹数据进行筛选,保留满足自定义规则的数据进入下一治理流程;目标匹配:目标匹配根据目标字典维护模块提供的目标字典,对每一条流式轨迹数据与目标字典进行匹配,找到实时流式轨迹数据所描述目标,再通过目标信息,对实时轨迹数据进行反填,实现实时轨迹数据的属性补充和属性扩展;实时消批:通过自定义消批规则,自动生成消批消息,来标记满足某些条件的数据的修改或作废,并将生成的消批消息加入到实时流式轨迹数据中,告知后续的实时流数据消费者,对接收的实时轨迹数据进行修改和作废;历史数据落地:用于对处理后的实时流式轨迹数据进行落地存储,保存到数据库中,作为历史数据;索引数据存储:用于将实时流式地理轨迹数据存储到全文搜索引擎ElasticSearch,简称ES中,通过ES提供近实时的,复杂的查询和聚合功能;事件触发:用于通过监控实时流式轨迹数据,分析对应目标的当前状态,通过提前预置规则的方式定义相关事件,当监控到实时流式轨迹数据对应目标状态满足相应规则时,及时进行事件触发操作,以完成电子围栏相关应用;数据推送:用于将治理完成的高质量实时轨迹数据,通过消息中间件实时推送,继续对外提供准实时数据服务;历史轨迹数据治理模块包括五个步骤:合批、合并、平滑、校正和打标;合批:实时流式轨迹数据治理过程中,通过对治理后的实时数据落地存储得到了历史轨迹数据;定期扫描历史轨迹数据,根据批号进行聚合,得到历史轨迹,存储到数据库中;或者通过监控实时数据流,实时对流式轨迹数据进行合批,并将合批得到的轨迹数据暂存到缓存中间件或内存中,然后每隔一定时间,将缓存数据存库;合并:用于对合批后得到的历史轨迹进行合并,通过识别出一段时间内,相同目标,不同批号的历史轨迹,进行历史轨迹合并,将同一目标的多个轨迹合并为一条历史轨迹,这条历史轨迹称为目标活动;平滑:对得到的目标活动进行智能识别,通过算法识别出离群点和间断带,并且生成修正方案,然后通过人工确认或预置规则审核的方式,完成对离群点和间断带的插入和替换,实现目标活动的平滑处理;校正:对平滑处理后的目标活动,再进行一次目标匹配校正,对实时轨迹数据治理过程中,未匹配到目标字典的目标活动,手动完成目标归一化操作;对实时轨迹数据治理过程中匹配到的目标进行确认,确保每条地理轨迹数据都归类到正确目标;打标:对目标活动打标签,通过多维度的标签标记不同活动轨迹的业务场景,为多场景、灵活的数据查询服务提供支撑;目标维护模块包括3个流程:目录表生成、目录表维护和目标字典同步;目录表生成:通过抽取转换加载工具ETL,抽取系统目标字典,作为目标维护的初始数据,在数据抽取过程中,将目标名称、简称、别称组合成关键字字段,作为目标同义词,以上操作形成的数据表称为目录表,保存在数据库中;借助ETL工具,定期对目录表和系统目标字典进行数据校对,保证目录表和系统目标字典的数据同步;目录表维护:是对目录表进行数据的修改和完善,通过人工增加关键字和人工干预目标活动处理中目标匹配的方式,完成对目标关键字的维护;通过关键字去重、视图映射方式,组成一张目标字典,并列出重复的关键字,提醒用户确认;目录表维护包括:目标维护、关键字去重和视图映射三部分;目标字典同步:将目标字典同步到大数据平台中,用来参与实时流式地理轨迹数据治理,并保证数据库中目标字典和大数据平台目标字典完全一致;监控目标字典,当目标字典发生变动时,将变动同步更新到大数据平台,通过将目录表的修改封装成统一接口,在修改目录表的同时,完成视图映射,并将数据同步到大数据平台,保证修改后的目标字典在治理过程中快速生效;通过异步任务调用来实现目标字典同步;并设置合理的延时时间,来减少数据同步次数,当目标字典变更时,启动目标字典同步任务,并且设定一个默认的缓冲时间,同步任务启动后不会立即进行同步操作,而是等待缓冲时间到达后,再执行同步操作,在缓冲的时间内,目标字典变更将被记录,等达到缓冲时间后,统一批量更新到大数据平台。

全文数据:

权利要求:

百度查询: 北京计算机技术及应用研究所 一种流式地理轨迹数据的治理方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。