买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:北京羽乐互通信息技术有限公司
摘要:本发明涉及一种基于移动数据的易受诈人群画像构建方法,属于数据挖掘领域。该方法包括:S1:提取用户网络信息空间特征;S2:提取用户物理空间行为特征;S3:获取用户二元空间融合特征,即对用户网络信息空间特征和物理空间行为特征进行特征融合,并对用户二元空间融合特征进行筛选,得到最优特征子集;S4:根据最优特征子集生成用户画像。本发明将移动运营商的数据能力、第三方电子地图数据、用户画像技术、电信诈骗中受害人的特性相结合,构建易受诈人群用户画像,有效提高了画像的准确性、完整性。利用数据加深对受害人的理解,为反诈工作的有效开展提供新思路。
主权项:1.一种基于移动数据的易受诈人群画像构建方法,其特征在于,该方法具体包括以下步骤:S1:提取用户网络信息空间特征;S2:提取用户物理空间行为特征,具体包括以下步骤:S21:将受电信诈骗用户手机号码与正常用户手机号码关联数据库中的相关数据模型,提取用户接入基站数据和基站经纬度信息,使用第三方电子地图引入POI信息;S22:根据用户轨迹数据中相邻两点的间隔权值,和轨迹数据的局部时空密度大小识别用户的停留点;所述间隔权值γc的计算公式为: 其中,表示相邻两位置点的距离间隔归一化值,表示相邻两位置点的时间间隔归一化值;所述局部时空密度ρi的计算公式为: 其中,distxi,xj为xi到xj的地面距离,xi、xj分别表示轨迹中两个位置点,ti、tj分别表示轨迹中两个位置点的时间戳,n表示一条轨迹中数据点的总数,σ值设为1;停留点识别方法为:对γc执行聚类簇数k=2的Kmeans算法聚为两类,将γc值较大类的γc最小值作为γc_th,将间隔权值小于γc_th的点删除,将相邻的两个删除位置之间的所有点划分为一个候选停留点,然后在每个候选停留点中对ρi执行k=2的Kmeans算法聚为两类,将ρi值较小类的ρi最大值作为ρi_th,候选停留点中存在大于ρi_th的时空密度则为实际停留点;S23:对每一个停留点赋予一个语义信息,将停留点半径R内最多的POI类型赋予给该停留点;S24:按时间汇总用户访问各POI类型区域的次数;S3:获取用户二元空间融合特征,即对用户网络信息空间特征和物理空间行为特征进行特征融合,并对用户二元空间融合特征进行筛选,得到最优特征子集;对用户二元空间融合特征进行筛选,具体包括以下步骤:S31:计算原始特征空间中各特征与目标类别的最大互信息系数MIC;其中最大互信息系数MIC的计算公式为: 其中,D={f1,C,f2,C,...,fi,C}是特征fi与其类别C={0,1}的有序对集合,logminX,Y为互信息量的归一化值,XY表示使用X×Y的网格划分数据空间,XY要小于总数据量的0.6次方;在划分网格后的数据空间中,落在第x,y网格中数据点的频率Px,y的计算公式为: I*D,X,Y表示在指定X和Y情况下的互信息量大小,计算公式为: 删除小于阈值ε的特征后降序排序,构成特征子集S;S32:计算特征与特征间,特征与目标类别间的对称不确定性SU;其中对称不确定性SU的计算公式为: 其中,Ifi;C表示特征fi和类别C的互信息,Hfi和HC分别表示特征fi的信息熵和类别C的信息熵;特征fi是特征fj的近似马尔科夫毯的条件表达式为:SUfi,C>SUfj,CSUfi,fj>SUfj,C其中,SUfi,C表示特征fi和类别C之间的相关性,SUfi,fj表示特征fi与特征fj之间的相关性;最后删除冗余特征,生成最优特征子集F;S4:根据最优特征子集生成用户画像。
全文数据:
权利要求:
百度查询: 北京羽乐互通信息技术有限公司 一种基于移动数据的易受诈人群画像构建方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。