买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
申请/专利权人:平安科技(深圳)有限公司
摘要:本申请涉及一种基于大数据分析的医保报销异常检测方法、装置、计算机设备和存储介质。所述方法包括:获取待检测的医保数据,根据医保数据得到医保特征向量;将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据医保输出特征向量得到检测结果。采用本方法能够提高医保报销审核的效率。
主权项:1.一种医保报销异常检测方法,所述方法包括:获取待检测的医保数据,根据所述医保数据得到医保特征向量,包括:获取历史医保数据和对应的历史检测结果数据,得到医保训练数据集,初始化所述医保训练数据集对应的特征集,将所述医保训练数据集输入到支持向量机中训练分类器,使用排序准则计算特征得分,将所述特征集按照得分进行排序,得到得分最小的特征,将所述得分最小的特征从所述特征集中去除,得到新的特征集,使用所述新的特征集对应的样本数据再次训练分类器,进行下一次迭代,当所述特征集中剩余预设数的特征时,将得到的特征集作为目标特征子集,将所述目标特征子集中所有的特征作为医保输入特征,并从所述医保数据中得到所述医保输入特征对应的医保特征向量;将所述医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,所述已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的,包括:获取到历史医保数据和对应的历史检测结果数据,得到医保样本数据,将所述医保样本数据使用留出法划分为互斥的训练医保样本数据和测试医保样本数据,使用所述训练医保样本数据训练医保随机森林模型,使用所述测试医保样本数据对训练的医保随机森林模型进行测试;根据所述医保输出特征向量得到检测结果;所述已训练的医保随机森林模型生成步骤包括:获取历史医保数据和对应的历史检测结果数据,根据所述历史医保数据得到历史医保特征向量,根据所述对应的历史检测结果得到历史医保输出向量;根据历史医保特征向量和对应的标签得到初始样本集;从所述初始样本集中随机有放回采样,得到目标训练集;根据所述目标训练集得到对应的特征集,从所述特征集随机抽取部分特征,得到目标特征集,从所述目标特征集中使用基尼指数算法得到划分特征;使用所述划分特征对所述目标训练集进行划分,得到子训练集,将所述子训练集作为目标训练集;返回根据所述目标训练集得到对应的特征集,从所述特征集随机抽取部分特征,得到目标特征集,从所述目标特征集中使用基尼指数算法得到划分特征的步骤,当达到目标条件时,得到目标决策树;返回从所述初始样本集中随机有放回采样,得到目标训练集的步骤,当达到目标数目的目标决策树时,得到所述已训练的医保随机森林模型。
全文数据:医保报销异常检测方法、装置、计算机设备和存储介质技术领域本申请涉及计算机技术领域,特别是涉及一种医保报销异常检测方法、装置、计算机设备和存储介质。背景技术在当今社会医疗体系中,医保作为一项利国利民的医疗措施受到了广泛好评,其中,医保指社会医疗保险,社会医疗保险是国家和社会根据一定的法律法规,为向保障范围内的劳动者提供患病时基本医疗需求保障而建立的社会保险制度。但是,由于现代医疗体系的不完善,使得过度医疗、分散住院、分解收费等欺诈行为时有发生,导致了医保基金的不合理流失。目前,监管的方式普遍都是通过人工进行医保报销的审核,但是由于专业人手有限,且就医量大,医疗信息复杂多变,人工审核医保报销的效率低下。发明内容基于此,有必要针对上述技术问题,提供一种能够提高医保报销审核效率的医保报销异常检测方法、装置、计算机设备和存储介质。一种医保报销异常检测方法,所述方法包括:获取待检测的医保数据,根据医保数据得到医保特征向量;将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据医保输出特征向量得到检测结果。在其中一个实施例中,根据医保数据中得到医保特征向量,包括:根据医保数据得到目标特征类型对应的特征集;根据目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,从医保数据中得到医保输入特征对应的医保特征向量。在其中一个实施例中,根据目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,包括:根据目标特征类型对应的特征集使用启发式搜索算法生成特征子集;计算特征子集对应的评价函数值,当评价函数值达到停止准则时,得到目标特征子集,将目标特征子集作为医保输入特征。在其中一个实施例中,已训练的医保随机森林模型生成步骤包括:获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量;将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到已训练的医保随机森林模型。在其中一个实施例中,将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到已训练的医保随机森林模型,包括:根据历史医保特征向量和对应的标签得到初始样本集;从初始样本集中随机有放回采样,得到目标训练集;根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征;使用划分特征对目标训练集进行划分,得到子训练集,将子训练集作为目标训练集;返回根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征的步骤,当达到目标条件时,得到目标决策树;返回从初始样本集中随机有放回采样,得到目标训练集的步骤,当达到目标数目的目标决策树时,得到已训练的医保随机森林模型。在其中一个实施例中,所述方法还包括:将医保特征向量输入到已训练的医保分类模型中进行检测,得到医保输出特征向量,医保分类模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法支持向量机进行训练得到的;根据医保输出特征向量得到检测结果。在其中一个实施例中,已训练的医保分类模型的生成步骤,包括:获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量;将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用支持向量机算法进行训练,当达到目标条件时,得到已训练的医保分类模型。一种医保报销异常检测装置,所述装置包括:向量得到模块,用于获取待检测的医保数据,根据医保数据得到医保特征向量;检测模块,用于将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;结果得到模块,用于根据医保输出特征向量得到检测结果。一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:获取待检测的医保数据,根据医保数据得到医保特征向量;将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据医保输出特征向量得到检测结果。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取待检测的医保数据,根据医保数据得到医保特征向量;将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据医保输出特征向量得到检测结果。上述医保报销异常检测方法、装置、计算机设备和存储介质,通过获取待检测的医保数据,根据医保数据得到医保特征向量;将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据医保输出特征向量得到检测结果。通过使用已训练好的医保随机森林模型检测医保数据,可以提高医保报销审核的效率。附图说明图1为一个实施例中医保报销异常检测方法的应用场景图;图2为一个实施例中医保报销异常检测方法的流程示意图;图3为一个实施例中得到医保特征向量的流程示意图;图4为一个实施例中得到医保输入特征的流程示意图;图5为一个实施例中得到已训练的医保随机森林模型的流程示意图;图6为另一个实施例中得到已训练的医保随机森林模型的流程示意图;图7为另一个实施例中医保报销异常检测方法的流程示意图;图8为一个实施例中得到已训练的医保分类模型的流程示意图;图9为一个实施例中医保报销异常检测装置的结构框图;图10为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的医保报销异常检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取终端102发送的待检测的医保数据,根据医保数据得到医保特征向量;将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据医保输出特征向量得到检测结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种医保报销异常检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:S202,获取待检测的医保数据,根据医保数据得到医保特征向量。其中,医保数据是指医保数据是指用于描述患者在医院进行治疗产生可报销的相关数据,医保数据包括参保人信息,诊断信息,药品信息,手术信息,费用结算信息,医生和医院信息等。医保特征向量是医保特征对应的向量数据,医保特征是指根据历史医保数据经过特征选择得到的特征。具体地,服务器获取到终端发送的待检测的医保数据,服务器根据该医保数据计算医保特征对应的医保特征向量,其中,医保特征是预先经过历史医保数据经过特征选择得到的并保存到服务器中的,当获取到待检测的医保数据时,服务器获取到保存的医保特征,并根据医保数据计算得到的医保特征对应的医保特征向量。比如:服务器获取到的医保特征包括患者信息特征,若待检测的医保数据中患者信息包括“男、18、公务员”等,则得到的患者信息特征向量为[1,18,1]。如果患者信息包括“女、22、不是公务员”等,则得到的患者信息特征向量为[0,20,0]。S204,将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的。其中,医保随机森林模型是预先根据历史医保数据和对应的历史检测结果数据通过随机森林算法训练完成后得到的。医保输出特征向量是指医保输出特征对应的向量数据,医保输出特征是根据历史医保数据的审核结果得到的特征,该审核结果包括正常医保数据和异常医保数据,则得到的医保输出特征包括正常医保数据特征和异常医保数据特征,每个医保输出特征都有对应的医保输出特征向量。例如,正常医保数据特征对应的医保输出特征向量为[1],异常医保数据特征对应的医保输出特征向量[0]。具体地,服务器将得到的医保特征向量输入到已训练好的医保随机森林模型进行检测,得到医保随机森林模型的输出医保输出特征向量。S206,根据医保输出特征向量得到检测结果。具体地,预先在训练模型时设置好了医保输出特征向量和检测结果之间的对应关系,比如,医保输出特征向量[1]对应为正常医保数据,医保输出特征向量[0]对应为异常医保数据。当得到医保输出特征向量时,根据医保输出特征向量和检测结果之间的对应关系得到检测结果。比如,将得到医保特征向量输入到已训练好的医保随机森林模型进行检测,得到医保随机森林模型的输出为[1]。则根据对应关系得到的[1]对应的检测结果为正常医保数据。上述医保报销异常检测方法中,通过获取待检测的医保数据,根据医保数据得到医保特征向量;将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据医保输出特征向量得到检测结果。通过使用已训练好的医保随机森林模型检测医保数据,可以提高医保报销审核的效率。在一个实施例中,如图3所示,步骤S202,即根据医保数据中得到医保特征向量,包括步骤:S302,根据医保数据得到目标特征类型对应的特征集。其中,目标特征类型是指预先根据历史医保数据通过特征构建得到的特征类型,包括就诊行为类型、费用支出类型、医疗项目类型和患者信息类型等。特征构建是指在数据原始特征的基础上建立新的特征的过程,通过新的特征训练的模型可以得到更好的性能,就诊行为类型用于反映患者的就诊行为的特征,包括就诊次数特征、就诊频率特征、就诊地点集中度特征和就诊行为自洽性等。费用支出类型用于反映患者的费用相关信息,包括支出额度、细项分布和速率等。医疗项目类型用于反映社保三目录相关信息的特征,包括手术信息通知、药品信息特征和检查项特征等。患者信息类型用于反映患者的社会人口学信息和其他非诊疗直接相关信息特征,包括年龄特征、性别特征和是否公务员特征等。具体地,根据历史医保数据进行特征构建,得到目标特征类型,将该目标特征类型保存。当得到待检测的医保数据时,获取到保存的目标特征类型,然后根据医保数据计算目标特征类型对应的特征集。S304,根据目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,从医保数据中得到医保输入特征对应的医保特征向量。其中,特征选择也称特征子集选择,或属性选择。是指从已有的M个特征中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。特征选择过程一般包括产生过程,评价函数,停止准则,验证过程。特征选择算法的一般过程包括特征子集产生过程、评价函数、停止准则和验证过程4个过程。具体地,在目标特征类型对应的特征集中随机进行特征子集选择,为评价函数提供特征子集,使用评价函数评价选择的特征子集,当评价函数值达到某个阈值后,就得到了医保输入特征。然后从医保数据中得到医保输入特征对应的医保特征向量。比如,得到的医保输入特征为就诊次数特征、就诊地点集中度、和性别特征,则在待测试的医保数据中就诊次数4次、就诊地点集中度为80%为深圳市和性别为男,则得到的医保特征向量为[4,0.8,1]。在上述实施例中,通过根据医保数据得到目标特征类型对应的特征集,根据目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,从医保数据中得到医保输入特征对应的医保特征向量。通过特征构建和特征选择得到医保输入特征,从从医保数据中得到医保输入特征对应的医保特征向量作为模型的输入,可以提高医保随机森林模型的性能,使得医保报销审核的效率进一步提高。在一个实施例中,如图4所示,步骤S304,即根据目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,包括步骤:S402,根据目标特征类型对应的特征集使用启发式搜索算法生成特征子集。S404,计算特征子集对应的评价函数值,当评价函数值达到停止准则时,得到目标特征子集,将目标特征子集作为医保输入特征。其中,启发式搜索算法是假定原始特征集是F,挑选出来的特征子集是f。序列前向搜索策略首先把特征子集f初始化为空集,每一步从F-f余下的特征集中选择使得评价函数Jf+x最优的特征x直至评价函数J无法改进,便认为得到了最优的特征子集。评价函数用于评价一个特征子集的好坏的指标,评价函数可分为筛选器和封装器,包括相关性函数、距离函数和信息增益函数等。具体地,初始化目标特征子集为空,在预设特征类型对应的特征集中选择任意一个特征加入到特征子集中,得到第一特征子集。使用相关性函数作为评价函数对该第一特征子集进行计算,得到第一评价结果值,再在特征集中剩余的特征中任意选择一个特征加入第一特征子集中,得到第二特征子集,使用相关性函数作为评价函数对该第二特征子集进行计算,得到第二评价结果值,比较第一评价结果值和第二评价结果值,若第一评价结果值大于第二评价结果值,则将该第一特征子集作为目标特征子集,若第一评价结果值小于第二评价结果值,则将第二特征子集作为目标特征子集。按照上述方法将预设特征类型对应的特征集中每个特征都进行筛选,当评价结果值小于预设阈值时,得到目标特征子集,将目标特征子集中所有的特征作为医保输入特征。上述实施例中,通过根据目标特征类型对应的特征集使用启发式搜索算法生成特征子集。计算特征子集对应的评价函数值,当评价函数值达到停止准则时,得到目标特征子集,将目标特征子集作为医保输入特征,可以去除掉目标特征类型的特征集中的无关特征和冗余特征,提高医保随机森林模型的性能,使得医保报销审核的效率进一步提高。在一个实施例中,可以通过递归特征消除算法进行特征选择得到目标特征子集,递归特征消除算法是指一个基于支持向量机的最大间隔原理的序列后向选择算法。它通过模型训练样本,然后对每个特征进行得分进行排序,去掉最小特征得分的特征,然后用剩余的特征再次训练模型,进行下一次迭代,最后选出需要的特征数。具体地,获取历史医保数据和对应的检测结果数据,得到医保训练数据集,初始化医保训练数据集对应的特征集,将所述医保训练数据集输入到支持向量机中训练分类器,然后使用排序准则计算特征得分,将特征集按照得分进行排序,得到得分最小的特征,将该特征从特征集中去除,使用新的特征集对应样本数据再次训练分类器,进行下一次迭代,当特征集中剩余预设数的特征时,将得到的特征集作为目标特征子集,将目标特征子集中所有的特征作为医保输入特征。使用递归特征消除算法进行特征选择得到目标特征子集,可以去除掉目标特征类型的特征集中的无关特征和冗余特征,提高医保随机森林模型的性能,使得医保报销审核的效率进一步提高。在一个实施例中,如图5所示,已训练的医保随机森林模型生成步骤包括:S502,获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量。具体地,服务器获取到历史医保数据和对应的历史检测结果数据,即获取到历史正常医保数据和历史异常医保数据,根据历史医保数据得到历史医保特征,并根据历史医保数据得到历史医保特征对应的历史医保特征向量,然后在根据对应的历史检测结果得到历史医保输出向量,即得到正常医保数据对应的历史正常医保输出向量和异常医保数据对应的异常医保输出向量。S504,将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到已训练的医保随机森林模型。其中,随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。目标条件是指预先设置好随机森林中决策树的数目。具体地,服务器将得到的历史医保特征向量作为输入。将对应历史医保输出向量作为标签,使用随机森林算法训练得到目标数目的决策树,就得到了随机森林,即得到了已训练好的医保随机森林模型。在一个实施例中,获取新的历史医保数据和对应的历史检测结果数据得到测试医保数据集,使用该测试医保数据集对已训练好的医保随机森林模型进行测试,具体地,使用新的历史医保数据得到对应的医保特征向量,将该医保特征向量输入到已训练好的医保随机森林模型中进行测试,得到对应的测试结果,将该测试结果和对应的历史检测结果进行比较,得到测试准确率,当测试准确率达到预设的准确率时,说明已训练好的医保随机森林模型是符合要求的模型,当测试准确率没有达到预设的准确率时,重新将新的历史医保数据和训练时使用的医保数据进行合并,得到新的训练医保数据,使用新的训练医保数据重新训练医保随机森林模型。使用测试通过的已训练好的医保随机森林模型,可以确保医保随机森林模型审核医保数据的准确率。在一个实施例中,获取到历史医保数据和对应的历史检测结果数据,得到医保样本数据,将该医保样本数据使用留出法划分为训练医保样本数据和测试医保样本数据,使用训练医保数据训练医保随机森林模型,使用测试样本数据对训练的医保随机森林模型进行测试。其中,留出法是指将数据集D划分为两个互斥的集合S和集合T,使得划分后的数据集满足S∪T=D且S∩T=Φ。使得不需要重新采集新的历史医保数据,方便快速进行测试且可以确保随机森林模型审核医保数据的准确率。通过上述实施例,获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量,将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到已训练的医保随机森林模型,通过预先训练好医保随机森林模型,在进行医保数据审核时直接进行使用,提高了医保数据审核的效率。在一个实施例中,如图6所示,步骤S504,即将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到已训练的医保随机森林模型,包括步骤:S602,根据历史医保特征向量和对应的标签得到初始样本集。S604,从初始样本集中随机有放回采样,得到目标训练集。其中,目标训练集是指根据历史医保特征向量和对应的标签得到的样本集中随机有放回选取样本数量相同的样本集合。具体地,将每个历史医保特征向量和对应的标签得到新的样本向量,得到初始样本集,从初始样本集中随机有放回采样,得到目标训练集。比如:历史医保特征向量为[1,0.8,1],对应的标签为[1],得到的样本向量为[1,0.8,1,1]另一个历史医保特征向量为[10,0.7,1],对应的标签为[0],得到的样本向量为[10,0.7,1,0],得到初始样本集{[1,0.8,1,1],[10,0.7,1,0]},从该初始样本集中随机有放回采样,得到目标训练集可以是{[10,0.7,1,0],[10,0.7,1,0]}。S606,根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征。具体地,根据目标训练集中的医保数据得到对应的医保特征,得到特征集,从该特征集随机抽取部分特征,作为目标特征集,从该目标特征集中使用基尼指数选取最优的特征,得到了划分特征,其中,也可以使用息增益或者信息增益比得到划分特征。S608,使用划分特征对目标训练集进行划分,得到子训练集,将子训练集作为目标训练集。具体地,将所述目标训练集作为当前节点,若当前节点为第一个节点,则为根节点。获取到划分特征对应的阈值,根据该阈值进行划分,将划分特征大于该阈值的样本划分为左节点,得到左节点训练集,将划分特征小于该阈值的样本划分为右节点,得到右节点训练集。分别将左右子节点训练集作为目标训练集。S610,判断是否达到目标条件。其中,目标条件是指目标训练集中的历史医保特征向量对应的标签相同。具体地,判断目标训练集中历史医保特征向量对应的标签是否相同,即判断左节点训练集和右节点训练集中的标签是否全为正常医保数据对应的标签或者异常医保数据对应的标签。若是,则执行步骤S612,若否,则执行步骤S606。其中,若是是指当左节点训练集的标签全为正常医保数据对应的标签或者异常医保数据对应的标签且右节点训练集中的标签全为正常医保数据对应的标签或者异常医保数据对应的标签时,则为是。若否是指当左节点训练集或者右节点训练集中任意一个训练集中的标签不全为正常医保数据对应的标签或者异常医保数据对应的标签,则为否。此时将不全正常医保数据对应的标签或者异常医保数据对应的标签的训练集作为目标训练集,执行步骤S606。在一个实施例中左节点训练集中的标签不全为正常医保数据对应的标签或者异常医保数据对应的标签,则将左节点训练集作为目标训练集执行步骤S606。在一个实施例中右节点训练集中的标签不全为正常医保数据对应的标签或者异常医保数据对应的标签,则将右节点训练集作为目标训练集执行步骤S606。在一个实施例中左节点训练集和右节点训练集中的标签都不全为正常医保数据对应的标签或者异常医保数据对应的标签,则将左节点训练集和右节点训练集分别作为目标训练集执行步骤S606。S612,得到目标决策树。具体地,当所有的目标训练集中的标签全为正常医保数据对应的标签或者异常医保数据对应的标签时,就得到了一颗目标决策树。此时执行步骤S614.S614,判断是否达到目标数目的目标决策树。具体地,目标数目是指预先设置要生成的目标决策树的数量,当生成目标决策树,判断生成的目标决策树的数量是否达到了目标数目,若是执行步骤S616,若否,执行步骤S604。S616,得到已训练的医保随机森林模型。具体地,当达到目标数目的目标决策树时,就得到了随机森林,将该随机森林作为已训练的医保随机森林模型。在上述实施例中,通过根据历史医保特征向量和对应的标签得到初始样本集;从初始样本集中随机有放回采样,得到目标训练集;根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征;使用划分特征对目标训练集进行划分,得到子训练集,将子训练集作为目标训练集;返回根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征的步骤,当达到目标条件时,得到目标决策树;返回从初始样本集中随机有放回采样,得到目标训练集的步骤,当达到目标数目的目标决策树时,得到已训练的医保随机森林模型。通过上述方法使建立的每颗决策树都能够彼此不同,提升了随机森林的多样性,从而能够提升医保随机森林模型的性能。在一个实施例中,如图7所示,所述方法还包括步骤:S702,将医保特征向量输入到已训练的医保分类模型中进行检测,得到医保输出特征向量,医保分类模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法支持向量机进行训练得到的。其中,医保分类模型是指使用支持向量机机器学习算法建立的分类模型。支持向量机是一种有监督,基于统计学理论的机器学习算法,是一种二类分类模型。其基本模型定义为特征空间上的间隔最大的线性分类器。使用线性函数gx=wTx+b和fx=sgngx作为分类器。具体地,将由待检测的医保数据得到的医保特征向量输入到由历史医保数据和对应的历史检测结果数据经过训练得到的已训练完成的医保分类模型中进行检测,得到医保分类模型输出医保输出特征向量。S704,根据医保输出特征向量得到检测结果。具体地,预先在训练模型时设置好了医保输出特征向量和检测结果之间的对应关系,比如,医保输出特征向量[1]对应为正常医保数据,医保输出特征向量[-1]对应为异常医保数据。当得到医保输出特征向量时,根据医保输出特征向量和检测结果之间的对应关系得到检测结果。比如,将得到医保特征向量输入到已训练好的医保随机森林模型进行检测,得到医保随机森林模型的输出为[1]。则根据对应关系得到的检测结果为正常医保数据。在一个实施例中,如图8所示,已训练的医保分类模型的生成步骤,包括步骤:S802,获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量。具体地,服务器获取到历史医保数据和对应的历史检测结果数据,即获取到历史正常医保数据和历史异常医保数据,根据历史医保数据得到历史医保特征,并根据历史医保数据得到历史医保特征对应的历史医保特征向量,然后设置历史检测结果和历史医保输出向量之间的对应关系,根据对应关系根据对应的历史检测结果得到历史医保输出向量。S804,将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用支持向量机算法进行训练,当达到目标条件时,得到已训练的医保分类模型。具体地,将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签输入到gx=wTx+b和fx=sgngx进行训练,得到医保分类模型参数,当达到最大迭代次数或者达到预设误差时,停止计算,得到已训练的医保分类模型。在一个实施例中,可以使用测试医保数据对得到的已训练的医保分类模型进行测试,当测试达到预设准确率时,将对应的医保分类模型作为最终的医保分类模型。应该理解的是,虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在一个实施例中,如图9所示,提供了一种医保报销异常检测装置900,包括:向量得到模块902、检测模块904和结果得到模块906,其中:向量得到模块902,用于获取待检测的医保数据,根据医保数据得到医保特征向量;检测模块904,用于将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;结果得到模块906,用于根据医保输出特征向量得到检测结果。在一个实施例中,向量得到模块902,包括:特征集得到模块,用于根据医保数据得到目标特征类型对应的特征集;特征选择模块,用于根据目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,从医保数据中得到医保输入特征对应的医保特征向量。在一个实施例中,特征选择模块,包括:特征子集生成模块,用于根据目标特征类型对应的特征集使用启发式搜索算法生成特征子集;目标特征子集得到模块,用于计算特征子集对应的评价函数值,当评价函数值达到停止准则时,得到目标特征子集,将目标特征子集作为医保输入特征。在一个实施例中,医保报销异常检测装置900,还包括:历史向量获取模块,用于获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量;随机森林训练模块,用于将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到已训练的医保随机森林模型。在一个实施例中,随机森林训练模块,包括:初始样本集得到模块,用于根据历史医保特征向量和对应的标签得到初始样本集;目标训练集得到模块,用于从初始样本集中随机有放回采样,得到目标训练集;划分特征得到模块,用于根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征;划分模块,用于使用划分特征对目标训练集进行划分,得到子训练集,将子训练集作为目标训练集;目标决策树得到模块,用于返回根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征的步骤,当达到目标条件时,得到目标决策树;随机森林模型得到模块,用于返回从初始样本集中随机有放回采样,得到目标训练集的步骤,当达到目标数目的目标决策树时,得到已训练的医保随机森林模型。在一个实施例中,医保报销异常检测装置900,还包括:分类检测模块,用于将医保特征向量输入到已训练的医保分类模型中进行检测,得到医保输出特征向量,医保分类模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法支持向量机进行训练得到的;检测结果得到模块,用于根据医保输出特征向量得到检测结果。在一个实施例中,医保报销异常检测装置900,还包括:医保特征向量得到模块,用于获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量;医保分类模型训练模块,用于将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用支持向量机算法进行训练,当达到目标条件时,得到已训练的医保分类模型。关于医保报销异常检测装置的具体限定可以参见上文中对于医保报销异常检测方法的限定,在此不再赘述。上述医保报销异常检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医保数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医保报销异常检测方法。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待检测的医保数据,根据医保数据得到医保特征向量;将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据医保输出特征向量得到检测结果。在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据医保数据得到目标特征类型对应的特征集;根据目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,从医保数据中得到医保输入特征对应的医保特征向量。在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据目标特征类型对应的特征集使用启发式搜索算法生成特征子集;计算特征子集对应的评价函数值,当评价函数值达到停止准则时,得到目标特征子集,将目标特征子集作为医保输入特征。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量;将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到已训练的医保随机森林模型。在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据历史医保特征向量和对应的标签得到初始样本集;从初始样本集中随机有放回采样,得到目标训练集;根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征;使用划分特征对目标训练集进行划分,得到子训练集,将子训练集作为目标训练集;返回根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征的步骤,当达到目标条件时,得到目标决策树;返回从初始样本集中随机有放回采样,得到目标训练集的步骤,当达到目标数目的目标决策树时,得到已训练的医保随机森林模型。在一个实施例中,处理器执行计算机程序时还实现以下步骤:将医保特征向量输入到已训练的医保分类模型中进行检测,得到医保输出特征向量,医保分类模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法支持向量机进行训练得到的;根据医保输出特征向量得到检测结果。在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量;将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用支持向量机算法进行训练,当达到目标条件时,得到已训练的医保分类模型。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待检测的医保数据,根据医保数据得到医保特征向量;将医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据医保输出特征向量得到检测结果。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据医保数据得到目标特征类型对应的特征集;根据目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,从医保数据中得到医保输入特征对应的医保特征向量。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据目标特征类型对应的特征集使用启发式搜索算法生成特征子集;计算特征子集对应的评价函数值,当评价函数值达到停止准则时,得到目标特征子集,将目标特征子集作为医保输入特征。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量;将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到已训练的医保随机森林模型。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据历史医保特征向量和对应的标签得到初始样本集;从初始样本集中随机有放回采样,得到目标训练集;根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征;使用划分特征对目标训练集进行划分,得到子训练集,将子训练集作为目标训练集;返回根据目标训练集得到对应的特征集,从特征集随机抽取部分特征,得到目标特征集,从目标特征集中使用基尼指数算法得到划分特征的步骤,当达到目标条件时,得到目标决策树;返回从初始样本集中随机有放回采样,得到目标训练集的步骤,当达到目标数目的目标决策树时,得到已训练的医保随机森林模型。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将医保特征向量输入到已训练的医保分类模型中进行检测,得到医保输出特征向量,医保分类模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法支持向量机进行训练得到的;根据医保输出特征向量得到检测结果。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取历史医保数据和对应的历史检测结果数据,根据历史医保数据得到历史医保特征向量,根据对应的历史检测结果得到历史医保输出向量;将历史医保特征向量作为输入,将对应的历史医保输出向量作为标签,使用支持向量机算法进行训练,当达到目标条件时,得到已训练的医保分类模型。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程ROMPROM、电可编程ROMEPROM、电可擦除可编程ROMEEPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAMSRAM、动态RAMDRAM、同步DRAMSDRAM、双数据率SDRAMDDRSDRAM、增强型SDRAMESDRAM、同步链路SynchlinkDRAMSLDRAM、存储器总线Rambus直接RAMRDRAM、直接存储器总线动态RAMDRDRAM、以及存储器总线动态RAMRDRAM等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
权利要求:1.一种医保报销异常检测方法,所述方法包括:获取待检测的医保数据,根据所述医保数据得到医保特征向量;将所述医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,所述已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;根据所述医保输出特征向量得到检测结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述医保数据中得到医保特征向量包括:根据所述医保数据得到目标特征类型对应的特征集;根据所述目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,从所述医保数据中得到所述医保输入特征对应的医保特征向量。3.根据权利要求1所述的方法,其特征在于,所述根据所述目标特征类型对应的特征集使用特征选择算法进行特征选择,得到医保输入特征,包括:根据所述目标特征类型对应的特征集使用启发式搜索算法生成特征子集;计算所述特征子集对应的评价函数值,当所述评价函数值达到停止准则时,得到目标特征子集,将所述目标特征子集作为医保输入特征。4.根据权利要求1所述的方法,其特征在于,所述已训练的医保随机森林模型生成步骤包括:获取历史医保数据和对应的历史检测结果数据,根据所述历史医保数据得到历史医保特征向量,根据所述对应的历史检测结果得到历史医保输出向量;将所述历史医保特征向量作为输入,将所述对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到医保随机森林模型。5.根据权利要求1所述的方法,其特征在于,将所述历史医保特征向量作为输入,将所述对应的历史医保输出向量作为标签,使用随机森林算法进行训练,当达到目标条件时,得到所述已训练的医保随机森林模型,包括:根据历史医保特征向量和对应的标签得到初始样本集;从所述初始样本集中随机有放回采样,得到目标训练集;根据所述目标训练集得到对应的特征集,从所述特征集随机抽取部分特征,得到目标特征集,从所述目标特征集中使用基尼指数算法得到划分特征;使用所述划分特征对所述目标训练集进行划分,得到子训练集,将所述子训练集作为目标训练集;返回根据所述目标训练集得到对应的特征集,从所述特征集随机抽取部分特征,得到目标特征集,从所述目标特征集中使用基尼指数算法得到划分特征的步骤,当达到目标条件时,得到目标决策树;返回从所述初始样本集中随机有放回采样,得到目标训练集的步骤,当达到目标数目的目标决策树时,得到所述已训练的医保随机森林模型。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述医保特征向量输入到已训练的医保分类模型中进行检测,得到医保输出特征向量,所述已训练的医保分类模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法支持向量机进行训练得到的;根据所述医保输出特征向量得到检测结果。7.根据权利要求1所述的方法,其特征在于,所述已训练的医保分类模型的生成步骤,包括:获取历史医保数据和对应的历史检测结果数据,根据所述历史医保数据得到历史医保特征向量,根据所述对应的历史检测结果得到历史医保输出向量;将所述历史医保特征向量作为输入,将所述对应的历史医保输出向量作为标签,使用支持向量机算法进行训练,当达到目标条件时,得到所述已训练的医保分类模型。8.一种医保报销异常检测装置,其特征在于,所述装置包括:向量得到模块,用于获取待检测的医保数据,根据所述医保数据得到医保特征向量;检测模块,用于将所述医保特征向量输入到已训练的医保随机森林模型中进行检测,得到医保输出特征向量,所述已训练的医保随机森林模型是根据历史医保数据和对应的历史检测结果数据使用有监督机器学习算法随机森林进行训练得到的;结果得到模块,用于根据所述医保输出特征向量得到检测结果。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
百度查询: 平安科技(深圳)有限公司 医保报销异常检测方法、装置、计算机设备和存储介质
免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。