买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
摘要:本发明涉及一种基于机器学习的电信反欺诈方法,本发明旨在解决及时拦截电信诈骗的问题,目标是提前预警提前防范电信诈骗的情况,本发明利用机器学习中的LightGBM算法对正负样本进行训练和预测,并将常见的诈骗场景分为四大类,根据不同的大类分别进行建模训练,提高预测的准确性。
主权项:1.一种基于机器学习的电信反欺诈方法,其特征在于,包括如下步骤:1根据历史所有的通报号码和通报的内容分析梳理,不同场景梳理,将潜在电信诈骗用户细分,深入挖掘用户分群,刻画出目标用户的特征;2进行数据采集,针对现有存量用户采集其各个维度的特征,从用户的基本属性,通话行为数据,套餐入网信息,消费使用特征,终端标记信息,衍生变量这六大维度入手,细分成178个特征,构建号卡的活跃行为宽表,采集用户数据;3进行数据清洗和预处理,根据用户数据,进行缺失值检测和异常值检查;4进行数据采样,采用加入伪标签的方法,即已经被预测为涉诈用户且没有复机的号卡作为正样本加入被通报的号卡,使得正负样本的比例控制在1:15;其中数据采样时利用SMOTE算法,SMOTE算法是利用线性插值的方法计算两个新近通报号码样本,生成新的人工正样本加入到总体的正向样本中扩充正样本的数量;即运用公式:Xnew=Xi+Xij-Xi×γXij是样本Xi的j个邻近的样本,即表示涉诈样本i的邻近的j个涉诈样本;γ则是0到1之间的随机数;新生成的涉诈样本则用Xi和其邻近样本j的线性表达式组成;使用伪标签时,首先根据已打标的正负样本数据训练模型,再预测无标签数据;伪标签将训练集抽取一部分作为新的验证集,将预测出来的数据加入成为新的训练集,再训练出新的模型,从而预测后续的无标签数据;其中在反欺诈实际应用场景有以下一类用户数据:用户号卡被反欺诈模型预测命中关停,且长时间没有通过提供的线上、线下任何复机渠道来进行复机操作,则此类用户会被认定为存在涉诈风险的用户,将其当作伪标签数据加入到正样本中,扩充正样本;在本步骤中,伪标签是利用算法模型预测出来的涉诈非涉诈标签数据,和通报号码组成新的训练集,训练出最优模型,预测用户是否有涉诈风险;5基于机器学习算法训练模型,预测用户是电信诈骗用户的概率,同时利用交叉验证和网格搜索来寻找模型的最优参数;机器学习算法采用LightGBM算法,将获得的数据划分为训练集和测试集,训练集和测试集的比例为3:7;并采用5折交差验证法和网格搜索来筛选出模型的最优解,已达到最佳的评价指标;模型评估方面,主要采用F1值和AUC值来评估模型的效果,其中模型再测试集的F1值为0.871824,AUC值为0.995512;所述LightGBM算法是使用Histogram直方图算法、GOSS基于单边的梯度采样和EFB专有特征捆绑算法来实现的;直方图算法即将特征的连续值离散化,使其成为k个离散的特征,构造一个宽度为k的分箱;其中,将k分箱设置为256,样本集数据总量为两千万,特征共178维;用XGBoost的复杂度O=20000000*178降低为O=256*178;基于单边的梯度采样方法是保留梯度较大的样本,在梯度较小的样本上选择随机采样的方法;基于单边的梯度采样方法是将数据按梯度值的大小进行降序排列,选取排名前a的数据,再在剩余的数据中随机采样b的数据,将小梯度的数据乘上常量乘数:1-ab,再计算信息增益;其中,使用python中的LightGBM包,即lightgbm.LGBMClassifier,其调整参数包括三大类:核心参数、学习控制参数和指标类参数;核心参数包括:boosting,这里使用gbdt算法;objective目标函数:二分类;n_estimators:弱分类器数目设置为1000;learning_rate学习率设置为0.01;num_leaves一棵树上的叶子结点数设为40,max_depth树的最大深度设置为7,seed种子树设置为4500个;学习控制参数:min_child_samples最小样本数量设置为46;min_child_weight叶子结点上的最小海瑟矩阵和默认设置为0.01;subsample_freq:训练样本采样率设置为2;subsample子样本设置为2;colsample_bytree列采样参数选择0.8;reg_alpha:L1正则参数;reg_lambda:L2正则参数分别选择0和5;指标函数:metric可选指标设置为binary_logloss;verbose冗余参数设置为1;在模型训练完后,使用F1值和AUC进一步评价此模型的情况,AUC即为ROC曲线下的面积;本模型的在测试集上打印出的各个指标如下所示:ModelReportAUCScore:0.995512召回率:0.925329准确率:0.824169F1:0.871824;6进行模型的迭代与优化,实现达到更好的预测效果;所述步骤6中模型的优化迭代具体为:首先将反欺诈场景分为贷款金融诈骗、冒充客服、GOIP类诈骗和沉默卡诈骗类四个大类,再将模型划分为四大类别分别做模型的训练和预测,并根据已被模型关停号卡的复机情况和投诉情况持续对四类模型进行优化与迭代;在反欺诈模型实际部署应用的流程中,先根据数据的来源从不同的平台采集汇聚数据,从用户的基础数据:客户信息、套餐情况、开卡渠道、消费特征,行为数据:通话行为、流量上网行为、通话漫游位置,网络数据:DPI数据、用户位置和终端数据,接口数据:信令数据、试呼数据、通报数据、平台举报数据生成用户特征,建立反欺诈行为宽表;通过机器学习模型算法训练模型并预测反欺诈行为宽表中的用户是否有涉诈行为;将诈骗场景分为四大类:贷款金融诈骗、冒充客服、GOIP类诈骗和沉默卡诈骗,从四个场景生成不同的模型训练预测,并且将预测出来用户的涉诈概率划分为高、中、低三个风险等级对应三种的反欺诈处理流程,给用户发送预警核验信息,如核验通过则表示用户实名认证通过,如核验不通过则将对号码做关停处理。
全文数据:
权利要求:
百度查询: 浙江鸿程计算机系统有限公司 一种基于机器学习的电信反欺诈方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。