首页 专利交易 科技果 科技人才 科技服务 国际服务 商标交易 会员权益 IP管家助手 需求市场 关于龙图腾
 /  免费注册
到顶部 到底部
清空 搜索

一种基于数据增强的欺诈检测方法 

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

申请/专利权人:上海第二工业大学

摘要:本发明公开了一种基于数据增强的欺诈检测方法;包含图对比学习、相似性选择、分组级聚合及变换器编码等多个处理模块,系统性地优化了对复杂图数据的分析与处理。图对比学习模块在无需标签数据的情况下进行预训练,有效提取节点深层嵌入;相似性选择模块识别与已知欺诈节点最相似的节点,为这些节点分配伪欺诈标签,有助于扩大及平衡训练数据集中的欺诈类别样本;分组级聚合步骤处理并融合目标节点的邻域信息,优化节点表示;变换器编码器则将这些聚合的组向量融合成节点的最终表示。此深度学习流程显著提升了复杂及异质图数据环境下的检测性能,有效解决类别不平衡与数据异质性问题。本发明展示了其独特架构和处理机制的广泛适用性和高效处理能力,能在多种实际应用场景中有效识别及预测欺诈行为。

主权项:1.一种基于数据增强的欺诈检测方法,其特征在于,包含图对比学习模块、相似性选择模块、分组级聚合模块和变换器编码器模块;所述图对比学习模块,通过无需标签数据的预训练方式,处理输入图数据并生成深层节点嵌入,该模块使用特定类型的线性变换将节点的异质属性投影到统一的向量空间中;所述相似性选择模块,用于从大量未标记节点中识别与已知欺诈节点最相似的节点,并为这些节点分配伪欺诈标签,此过程通过扩大并平衡训练数据集中的欺诈类别样本,增强模型对少数类别的识别能力;所述分组级聚合模块,按照节点的类别标签将目标节点的邻域信息进行分组,并将每组的信息整合成序列化向量组,每个向量组通过学习到的组编码进一步整合结构、语义和类别信息;所述变换器编码器模块,将经过分组级聚合的组向量进行融合,形成节点的最终表示,该模块采用基于多头注意力机制的编码器,适应性地重新加权各组嵌入,并捕捉低同质性设置下的相似信息;根据权利要求1所述的一种基于数据增强的欺诈检测方法,其特征在于,图数据表示增强模块包含图对比学习模型,用于从图数据中提取节点的嵌入表示,从而有效地反映节点之间的类内和类间关系,包括:GCL模型接收图G作为输入,并输出相应的节点表示:X′=GCLG,其中x′v表示节点v的嵌入,GCL.是一个图对比学习模型,本系统中应用的是HDGI模型。根据权利要求1所述的一种基于数据增强的欺诈检测方法,其特征在于,所述图对比学习模块使用自适应学习率和动态调整的激活函数,以优化在无监督条件下的节点表示学习。该模块采用图对比学习方法,通过以下公式进行节点表示的生成:X′=GCLG,其中,G表示输入的图结构,X′表示图中节点的嵌入向量,采用的GCL.模型是基于图的深度学习模型,如HDGI。根据权利要求1所述的一种基于数据增强的欺诈检测方法,其特征在于,所述相似性选择模块采用基于图神经网络的算法,能够通过节点嵌入间的相似性来识别潜在的欺诈节点。该模块利用图对比学习GCL生成节点嵌入,并应用以下相似性度量来选择未标记节点,包括:该相似性度量通过计算未标记节点与已标记欺诈节点中最近者之间的距离来定义,具体计算方式如下:其中,Dv,u=|x′u-x′v||表示欧氏距离,用于计算节点v和最近的已标记欺诈节点之间的距离。基于这种相似性度量,该模块选择相似度最高的前K个未标记节点作为伪欺诈节点,以此来扩充欺诈类别,并有效缓解类别不平衡问题:其中,Su是节点u与已标记欺诈节点之间的相似度,ψ是确定的相似度阈值,表示中与欺诈类相似度的最小值,根据权利要求1所述的一种基于数据增强的欺诈检测方法,其特征在于,所述分组级聚合模块通过执行平均聚合或加权平均聚合来综合节点的邻域信息,提供丰富的上下文信息用于后续处理。该模块根据节点的类别标签将节点的邻域信息分为多个组,并为每个组计算聚合向量,包括:在该模块中,对于目标节点v,将获取其在关系r下的T跳子图。0跳邻居定义为一个组Gv={v},其组向量即节点v的表示。每个t跳的邻居根据标签类型分为四个组{G1,G2,G3,G4}={G+,G-,G*+,G*},分别表示正标签的欺诈组、负标签的非欺诈组、伪正标签的伪欺诈组以及未标记的掩码标签组。由于正标签节点较少,伪欺诈组可为模型提供额外信息。每个组执行平均聚合操作,从而从每个t跳的邻居中获得一系列组向量:空组默认填充为零。目标节点的t跳邻居将被聚合成四个组向量,由索引。随后,将获得目标节点v在关系r下T跳内的群级聚合结果X,并将所有关系的Xr组合为输入组特征序列Xs,定义如下:其中||代表串联操作代表串联操作,并且S=R×4T+1表示输入特征序列中的组向量数量。根据权利要求1所述的一种基于数据增强的欺诈检测方法,其特征在于,所述变换器编码器模块包括组跳数编码、组关系编码和组类别编码,这些编码通过简单操作被集成到组特征序列中,从而为输入提供多维度信息增强,此外,变换器编码器模块还包括跨关系聚合步骤,通过以下公式将不同关系下的节点嵌入整合,生成目标节点的最终嵌入,用于欺诈预测包括:首先,输入特征序列Xs被映射到变换器的隐藏维度dm,Hs=σXsW+b,其中是权重矩阵,b是偏置向量,σ是激活函数。为了有效利用图结构、语义及组类别标签信息,引入了三种可学习的组编码:组跳数编码:Hh=OneHotfhHsWh,其中fh·从每个组向量中获取跳数信息h∈{0,1,...,L},OneHot是一种编码方法,是可学习的参数。组关系编码:Hr=OneHotfrHsWr,其中fr·从每个组向量中获取关系编号r∈{1,...,R},是可学习的参数。组类别编码:Hc=OneHotfcHsWc,其中fc·从每个组向量中获取类别索引,是可学习的参数,C是类别数量。将计算得到的三种编码融合生成变换器编码器的输入特征序列H:H=Hs+Hh+Hr+Hc,应用多头注意力机制,深入交互组向量,更新输入组向量H0=H,Hl+1=Concathead1,...,headMWl,其中是可学习的参数矩阵。跨关系聚合完成后,通过MLP分类器进行标签预测。输出的欺诈检测概率为:pv=sigmoidMLPzv,其中zv是目标节点的最终嵌入向量,通过整合所有关系的输出序列Z=HL获得。

全文数据:

权利要求:

百度查询: 上海第二工业大学 一种基于数据增强的欺诈检测方法

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。