买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:中移(苏州)软件技术有限公司;中国移动通信集团有限公司
摘要:本公开提供一种用户数据获取方法、系统、电子设备、芯片及介质,通过获取日志信息,并从日志信息中提取多个用户的初始特征信息;基于初始特征信息,确定互信息,互信息用于表示同一用户的任意两个特征信息之间的依赖程度;基于遗传算法,利用互信息对多个用户的特征信息进行筛选,以确定优化特征信息;根据优化特征信息,对日志信息进行球聚类处理,将优化特征信息划分为多个用户行为集合,多个用户行为集合用于作为训练数据训练第一模型,第一模型用于评估用户日志的异常风险值。通过用户的多个特征信息之间的互信息,对特征信息进行筛选,并利用球聚类对用户进行分类,得到训练数据进行模型训练,解决了相关技术中单一基于内容特征识别方法的实用性低的问题,减少了计算量,并进一步提升了搜索效率。
主权项:1.一种用户数据获取方法,其特征在于,所述方法包括:获取日志信息,对所述日志信息进行预处理,并从预处理后的日志信息中提取多个用户的用户相关信息,利用主成分分析法,从所述用户相关信息中提取多个用户的初始特征信息,所述初始特征信息能够反映用户的多个特征信息,每一个特征信息反映用户的一个行为特征,其中包含用户的标识和能够反映用户行为特征的信息;基于所述初始特征信息,确定互信息,所述互信息用于表示同一用户的任意两个特征信息之间的依赖程度;对所述多个用户的特征信息进行编码,得到编码特征信息,对所述编码特征信息进行随机初始化空间处理,生成多个初始化种群,并计算所述多个初始化种群中每个编码特征信息的个体适应度,基于所述个体适应度,对每个初始化种群进行锦标赛选择处理,以得到多个优化种群,基于所述互信息,对所述多个优化种群进行交叉操作以及变异操作,循环迭代直至得到优化特征信息;根据所述优化特征信息,对所述日志信息进行球聚类处理,将所述优化特征信息划分为多个用户行为集合,所述多个用户行为集合用于作为训练数据训练第一模型,所述第一模型用于评估新用户的风险值,所述球聚类处理包括对所述优化特征信息进行标准K均值划分,得到多个初始球,每个初始球对应一种用户行为类别,针对每个初始球,确定随机初始中心作为所述初始球的质心,初始化每个初始球的质心,并计算每个初始球的半径,根据所述多个初始球中任两个初始球的质心之间的距离,计算质心距离矩阵,确定每个初始球的质心的邻球质心集,并重新分配所述初始球中的优化特征信息,得到优化球,循坏迭代计算每个优化球的质心和半径,直至每个优化球的质心停止变化。
全文数据:
权利要求:
百度查询: 中移(苏州)软件技术有限公司 中国移动通信集团有限公司 一种用户数据获取方法、系统、电子设备、芯片及介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。