基于时空数据分析的长护险欺诈行为检测方法

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

申请/专利权人：苏州娄熵数据技术有限公司

摘要：本发明涉及一种基于时空数据分析的长护险欺诈行为检测方法。本发明包括数数据采集、数据预处理、特征提取、模型设计和结果评估模块。数据预处理模块包括数据清洗和数据整合，为后续提供数据基础。特征工程模块包含模型的特征提取，包括护工、参保人基本信息特征、护工时空数据特征以及组合特征。根据工单数据的这三种特征进行模型的训练。模型算法设计模块包括构造训练样本、模型结构设计、模型预测三部分。结果评估模块采用F1‑score指标、ROC曲线的AUC指标验证模型的预测效果。本发明通过数据整理和特征提取，结合护工、参保人基本信息特征和时间上序列上的护工服务行为、空间位置特征，借助机器学习实现对长护险异常工单的预测。

主权项：1.基于时空数据分析的长护险欺诈行为检测方法，其特征在于，包括数据采集模块、数据预处理模块、特征提取模块、模型设计模块、结果评估模块；具体如下：1数据采集模块：数据来自长护险护理机构的数据库，包括以下两个方面的数据：1-1护工和参保人的基本信息，护工基本信息包含护工的工号、工龄、所属机构信息，参保人基本信息包括的参保人申请序号、年龄、失能等级信息；1-2工单数据，即上门服务时间段对应护工的空间位置，以及行为的时空数据信息，包括打卡信息、位置轨迹信息、各服务项目及对应时长信息；2数据预处理模块：包括数据清洗和数据整合；2-1数据清洗：对收集到的数据中的缺失值、负值、重复值异常数据直接剔除，剩下来的工单数据作为后续异常检测的样本来源；2-2数据整合：将长护险护理机构的数据库不同来源的数据进行整合，构成完整的数据集；3特征提取模块：3-1从长护险护理机构的数据库提取基本信息特征，包括护工特征和参保人特征；护工特征具体包括：护工工号、护工工龄、所属机构、服务频率；参保人特征具体包括：参保人申请序号、参保人年龄、参保人失能等级；3-2提取时空数据特征，包括工单服务期间时间序列上的护工行为信息特征和位置信息特征，具体包括：日工单量、打卡间隔、服务项目操作特征、服务总时长；3-3特征组合；将提取的基本信息特征与时空数据特征进行组合，包括护工-参保人交互特征和时空交互特征：护工-参保人交互特征具体包括护工工龄与参保人失能等级交互特征、服务项目与参保人失能等级交互特征；时空交互特征具体包括服务时段与工单量交互特征、位置偏移与服务总时长交互特征；对数据的特征进行了特征的标准化和归一化，使得特征值的范围处于[0,1]区间，并对这些特征构造特征集：F={f1,f2,…fm}，f1,f2,…,fm分别表示各个维度的特征值；4模型设计模块；包括构造训练与测试样本、模型结构设计、模型预测，模型采用基于梯度提升决策树的LightGBM模型；具体如下：4-1构造训练与测试样本：将数据集分为训练集Train_data用于训练模型，以及测试集Test_data用于评估模型的性能，训练样本由同等数量的正负样本共同组成，将所有数据作为后续五折交叉验证的输入，即将所有数据按照原来正负样本的比例划分为五份，其中四份用于模型的训练，一份用于测试模型的预测效果；所述的正样本来自于收集到的人工线下核实后的存在异常欺诈行为的工单样本，所述的负样本是任意不存在欺诈行为的正常工单样本；训练集Train_data包含特征提取模块中的特征数据F；={f1,f2,…fm}和标签数据Y_label，Y_lable=1表示该订单为异常订单，Y_lable=0表示该订单为正常订单；测试集Test_data同样包含了特征数据和标签数据，用于验证模型在训练集外的表现；设定模型的基本参数学习率、树的最大深度max_depth、叶子节点数num_leaves；4-2模型结构设计，包括：4-2-1模型特征选择：从用于训练的样本中随机采样个样本，每个样本的特征属性来自特征提取模块的构造，个样本训练一个决策树模型，训练过程中以信息增益为准则选取特征属性划分决策树的节点；使用LightGBM模型的Gain衡量使用该特征进行分裂后带来的总增益；输出结果为10×２矩阵，选取提取到的工单特征中增益排名前10的特征作为新的特征子集，矩阵中的第1列为工单特征，第２列为以增益Gain为衡量指标的重要性值；Gain增益为：；其中：和分别是左子节点和右子节点的梯度之和，和分别是左子节点和右子节点的梯度的二阶导数之和，是正则化参数，控制模型的复杂度，是叶节点的最小分裂增益，防止生成过多的叶节点；4-2-2模型Leaf-wise生长策略：对样本特征的增益Gain排序后的特征子集，构建直方图表示每个特征的分布情况，每次选择当前最大增益的叶子节点进行分裂；4-2-3模型样本优化设计；通过基于梯度的单边采样方法，保留大梯度的样本，随机丢弃小梯度样本；根据梯度的绝对值对样本进行排序，保留的样本，从剩余的样本中随机采样的样本，调整后的权重，是原始样本的权重；4-2-4模型迭代与更新；LightGBM；模型通过顺序地增加决策树提升模型整体的性能，每一棵新树的构建都是为了纠正前一棵树的错误；表示为：；其中，是经过第次迭代后的模型，是第棵树，是该树的学习率；通过损失函数的负梯度来定位新树的优化方向，每一步都会尝试找到一个新的树模型来拟合前棵树预测结果的残差：；表示损失函数，是训练样本的数量，和分别是样本的标签和特征；重复步骤4-2-1～4-2-4，直到达到预设的迭代次数或满足其他停止条件；最终将所有弱学习器（决策树）的预测结果加权求和得到预测结果；4-3模型预测；4-3-1计算预测值：所有树的预测结果加权求和，得到最终的预测值；假设有N棵树，每棵树的预测结果为，权重为，最终的预测值；4-3-2激活函数：最终的预测值通过二分类激活函数转换为预测概率；4-3-3标签预测：模型通过比较预测概率和预定的阈值判断最终的标签；最终的预测标签表示为：；5结果评估模块；采用准确率、精度、召回率及指标对异常检测结果进行量化评估：；；；；其中，表示将测试集中的异常工单预测为异常工单的个数，表示将测试集中的正常工单为异常工单的个数，表示将测试集中的异常工单预测为正常工单的个数，表示将测试集中的正常工单预测为正常工单的个数；通过曲线下的面积衡量模型的精度；横坐标假阳性率，表示所有实际为负类的样本中，被错误预测为正类的比例，；纵坐标为真阳性率表示所有实际为正类的样本中，被正确预测为正类的比例，；通过计算F1-score指标代表模型精确率和召回率的调和平均数，绘制曲线并计算，寻找最优预测结果下的模型参数，其中曲线下的面积定义为用于评估模型的整体分类能力，且值越大，值越接近1表示模型性能越好；在最优预测模型参数下，完成在所有的行为特征、统计特征下，长期护理保险工单是否属于异常工单的欺诈检测预测任务。

全文数据：

权利要求：

百度查询：苏州娄熵数据技术有限公司基于时空数据分析的长护险欺诈行为检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

阅读全文双屏查看官方信息专利公告收藏专利下载PDF 下载WORD

上一篇：一种薯类种植装置及方法

下一篇：企业员工健康管理方法、系统、电子设备及介质

相关技术

一种薯类种植装置及方法

企业员工健康管理方法、系统、电子设备及介质

用于多聚甲醛的氨和氢氧化铵稳定剂

一种低糖保健大米制作装置及方法

抑制LECT2基因表达的组合物和方法

装配式建筑的锁合机构

一种伸缩式气流隔离机构

一种新型船舶外表面修复喷涂机

一种电力铁塔塔脚焊接机器人及其焊接工艺

绕线骨架、磁悬轴承、电机

一种脉冲调制装置

一种中空纤维膜丝测试装置

险相关技术

车险定价策略制定方法、装置及电子设备_阳光保险集团股份有限公司_202410849739.3

一种健康险理赔社康直付结算的方法与系统_中国人民健康保险股份有限公司深圳分公司_202410785399.2

基于降水灾害的财货险理赔风险预警分析方法_湖南省气象服务中心_202411238112.0

基于多元因子决策算法的车险理赔修理商智能分派方法_苏州荟达拓信息科技有限公司_202410853641.5

车险定价变动用户识别方法、装置、设备及存储介质_中国联合网络通信集团有限公司_202111433714.8

智能车险理赔概率预测方法、装置及计算机可读存储介质_中国平安财产保险股份有限公司_201910975813.5

一种基于风险评估的安责险信息管理系统_福州无比欢信息科技有限公司_202411156918.5

一种车险核损数据处理方法、服务器及计算机可读介质_深圳平安医疗健康科技服务有限公司_201811530614.5

一种车险理赔换件的监控装置_陕西自然食光实业有限公司_202323222760.0

一种在险态场景下驾驶风格的预测方法与装置_清华大学_202411124208.4

欺诈相关技术

基于时空数据分析的长护险欺诈行为检测方法_苏州娄熵数据技术有限公司_202411144429.8

基于大数据的假冒网站欺诈风险管理系统及方法_金电信息科技(北京)有限责任公司_202410782972.4

欺诈用户识别方法、装置、终端设备以及存储介质_中移动金融科技有限公司_202311628420.X

基于联邦学习的模型训练方法及通信网络欺诈检测方法_中国移动通信集团设计院有限公司_202410655287.5

欺诈识别方法、装置、电子设备及介质_中国移动通信集团湖北有限公司_202311094860.1

欺诈风险识别方法、装置、设备及存储介质_中国移动通信集团浙江有限公司_202311347684.8

欺诈识别方法、装置、设备及存储介质_中国移动通信集团湖北有限公司_202311100017.X

欺诈识别方法、装置、电子设备及存储介质_中国移动通信集团湖北有限公司_202311091978.9

时间服务器的反欺诈信号的检测装置_国核自仪系统工程有限公司_202410835234.1

欺诈预测模型训练方法、装置、设备、存储介质及产品_中移动金融科技有限公司_202410303540.0

护相关技术

护角_宁波安路工贸有限公司_202420649864.5

一种弹性护脊背包_广州市贝尔祺手袋制品有限公司_202420238186.3

一种护卡膜过塑机_惠州市齐力电子有限公司_202420653498.0

同轴增速全护筒钻进装置_黑龙江省四建建筑工程有限责任公司_202420493416.0

可折叠的轿门护脚板和配备有可折叠的轿门护脚板的电梯_蒂升电梯(上海)有限公司_202310406752.7

一种护鸟箱安装用辅助装置_山东盛唐电气有限公司_202410893521.8

一种内外双支撑护踝_胡成栋_202322822251.5

一种无缝外护弯管生产装置_辽宁华阳管道设备有限公司_202420933793.1

一种护杆机构和自动钻架_中国煤炭科工集团太原研究院有限公司_202410998872.5

一种笼式露地南瓜护果装置_崇义县农业技术推广中心_202420278342.9

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

基于时空数据分析的长护险欺诈行为检测方法

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务