买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:苏州娄熵数据技术有限公司
摘要:本发明涉及一种基于时空数据分析的长护险欺诈行为检测方法。本发明包括数数据采集、数据预处理、特征提取、模型设计和结果评估模块。数据预处理模块包括数据清洗和数据整合,为后续提供数据基础。特征工程模块包含模型的特征提取,包括护工、参保人基本信息特征、护工时空数据特征以及组合特征。根据工单数据的这三种特征进行模型的训练。模型算法设计模块包括构造训练样本、模型结构设计、模型预测三部分。结果评估模块采用F1‑score指标、ROC曲线的AUC指标验证模型的预测效果。本发明通过数据整理和特征提取,结合护工、参保人基本信息特征和时间上序列上的护工服务行为、空间位置特征,借助机器学习实现对长护险异常工单的预测。
主权项:1.基于时空数据分析的长护险欺诈行为检测方法,其特征在于,包括数据采集模块、数据预处理模块、特征提取模块、模型设计模块、结果评估模块;具体如下:1数据采集模块:数据来自长护险护理机构的数据库,包括以下两个方面的数据:1-1护工和参保人的基本信息,护工基本信息包含护工的工号、工龄、所属机构信息,参保人基本信息包括的参保人申请序号、年龄、失能等级信息;1-2工单数据,即上门服务时间段对应护工的空间位置,以及行为的时空数据信息,包括打卡信息、位置轨迹信息、各服务项目及对应时长信息;2数据预处理模块:包括数据清洗和数据整合;2-1数据清洗:对收集到的数据中的缺失值、负值、重复值异常数据直接剔除,剩下来的工单数据作为后续异常检测的样本来源;2-2数据整合:将长护险护理机构的数据库不同来源的数据进行整合,构成完整的数据集;3特征提取模块:3-1从长护险护理机构的数据库提取基本信息特征,包括护工特征和参保人特征;护工特征具体包括:护工工号、护工工龄、所属机构、服务频率;参保人特征具体包括:参保人申请序号、参保人年龄、参保人失能等级;3-2提取时空数据特征,包括工单服务期间时间序列上的护工行为信息特征和位置信息特征,具体包括:日工单量、打卡间隔、服务项目操作特征、服务总时长;3-3特征组合;将提取的基本信息特征与时空数据特征进行组合,包括护工-参保人交互特征和时空交互特征:护工-参保人交互特征具体包括护工工龄与参保人失能等级交互特征、服务项目与参保人失能等级交互特征;时空交互特征具体包括服务时段与工单量交互特征、位置偏移与服务总时长交互特征;对数据的特征进行了特征的标准化和归一化,使得特征值的范围处于[0,1]区间,并对这些特征构造特征集:F={f1,f2,…fm},f1,f2,…,fm分别表示各个维度的特征值;4模型设计模块;包括构造训练与测试样本、模型结构设计、模型预测,模型采用基于梯度提升决策树的LightGBM模型;具体如下:4-1构造训练与测试样本:将数据集分为训练集Train_data用于训练模型,以及测试集Test_data用于评估模型的性能,训练样本由同等数量的正负样本共同组成,将所有数据作为后续五折交叉验证的输入,即将所有数据按照原来正负样本的比例划分为五份,其中四份用于模型的训练,一份用于测试模型的预测效果;所述的正样本来自于收集到的人工线下核实后的存在异常欺诈行为的工单样本,所述的负样本是任意不存在欺诈行为的正常工单样本;训练集Train_data包含特征提取模块中的特征数据F;={f1,f2,…fm}和标签数据Y_label,Y_lable=1表示该订单为异常订单,Y_lable=0表示该订单为正常订单;测试集Test_data同样包含了特征数据和标签数据,用于验证模型在训练集外的表现;设定模型的基本参数学习率、树的最大深度max_depth、叶子节点数num_leaves;4-2模型结构设计,包括:4-2-1模型特征选择:从用于训练的样本中随机采样个样本,每个样本的特征属性来自特征提取模块的构造,个样本训练一个决策树模型,训练过程中以信息增益为准则选取特征属性划分决策树的节点;使用LightGBM模型的Gain衡量使用该特征进行分裂后带来的总增益;输出结果为10×2矩阵,选取提取到的工单特征中增益排名前10的特征作为新的特征子集,矩阵中的第1列为工单特征,第2列为以增益Gain为衡量指标的重要性值;Gain增益为:;其中:和分别是左子节点和右子节点的梯度之和,和分别是左子节点和右子节点的梯度的二阶导数之和,是正则化参数,控制模型的复杂度,是叶节点的最小分裂增益,防止生成过多的叶节点;4-2-2模型Leaf-wise生长策略:对样本特征的增益Gain排序后的特征子集,构建直方图表示每个特征的分布情况,每次选择当前最大增益的叶子节点进行分裂;4-2-3模型样本优化设计;通过基于梯度的单边采样方法,保留大梯度的样本,随机丢弃小梯度样本;根据梯度的绝对值对样本进行排序,保留的样本,从剩余的样本中随机采样的样本,调整后的权重,是原始样本的权重;4-2-4模型迭代与更新;LightGBM;模型通过顺序地增加决策树提升模型整体的性能,每一棵新树的构建都是为了纠正前一棵树的错误;表示为: ;其中,是经过第次迭代后的模型,是第棵树,是该树的学习率;通过损失函数的负梯度来定位新树的优化方向,每一步都会尝试找到一个新的树模型来拟合前棵树预测结果的残差:;表示损失函数,是训练样本的数量,和分别是样本的标签和特征;重复步骤4-2-1~4-2-4,直到达到预设的迭代次数或满足其他停止条件;最终将所有弱学习器(决策树)的预测结果加权求和得到预测结果;4-3模型预测;4-3-1计算预测值:所有树的预测结果加权求和,得到最终的预测值;假设有N棵树,每棵树的预测结果为,权重为,最终的预测值;4-3-2激活函数:最终的预测值通过二分类激活函数转换为预测概率;4-3-3标签预测:模型通过比较预测概率和预定的阈值判断最终的标签;最终的预测标签表示为:;5结果评估模块;采用准确率、精度、召回率及指标对异常检测结果进行量化评估:;;;;其中,表示将测试集中的异常工单预测为异常工单的个数,表示将测试集中的正常工单为异常工单的个数,表示将测试集中的异常工单预测为正常工单的个数,表示将测试集中的正常工单预测为正常工单的个数;通过曲线下的面积衡量模型的精度;横坐标假阳性率,表示所有实际为负类的样本中,被错误预测为正类的比例,;纵坐标为真阳性率表示所有实际为正类的样本中,被正确预测为正类的比例,;通过计算F1-score指标代表模型精确率和召回率的调和平均数,绘制曲线并计算,寻找最优预测结果下的模型参数,其中曲线下的面积定义为用于评估模型的整体分类能力,且值越大,值越接近1表示模型性能越好;在最优预测模型参数下,完成在所有的行为特征、统计特征下,长期护理保险工单是否属于异常工单的欺诈检测预测任务。
全文数据:
权利要求:
百度查询: 苏州娄熵数据技术有限公司 基于时空数据分析的长护险欺诈行为检测方法
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。