**基于子图的分布对齐对比学习用于图异常检测**

《Engineering Applications of Artificial Intelligence》:Subgraph-based contrastive learning with distribution alignment for graph anomaly detection

【字体: 时间:2026年05月28日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  图异常检测已成为识别复杂网络中可疑模式的关键技术,在社交网络分析、欺诈检测和网络安全等领域具有广泛应用。图对比学习(Graph Contrastive Learning, GCL)的最新进展通过从局部子图中捕获判别性表示,在无监督异常检测中展现出巨大潜力。然而

  
图异常检测已成为识别复杂网络中可疑模式的关键技术,在社交网络分析、欺诈检测和网络安全等领域具有广泛应用。图对比学习(Graph Contrastive Learning, GCL)的最新进展通过从局部子图中捕获判别性表示,在无监督异常检测中展现出巨大潜力。然而,现有基于GCL的方法由于真实世界图结构的固有异质性,在检测细微异常方面仍面临挑战。此外,其依赖于刚性或随机子图采样策略,限制了其捕获细粒度结构变化的能力,从而降低了检测敏感性。为解决这些局限,研究人员提出了一种基于子图的图异常检测对比学习框架,称为SubGAD。具体而言,SubGAD通过整合一阶和二阶邻居来构建信息丰富的子图视图,从而在不引入固定大小采样偏差的情况下捕获更丰富的上下文模式。该框架首先执行节点到子图的对比学习以突出局部偏离,然后引入图推土机距离(Graph Earth Mover’s Distance, G-EMD)以跨视图对齐子图表示,从而以分布感知的方式有效量化结构和语义差异。此外,SubGAD通过子图中心化缓解位置偏差,并采用基于核函数的异常检测。在七个真实数据集上的大量实验表明,SubGAD持续优于现有最先进方法,实现了显著的性能提升,并验证了其在属性图中检测细微异常的有效性。
近年来,随着社交网络、金融交易和生物信息学等领域图结构数据的爆炸式增长,如何从复杂网络中准确识别异常节点,例如欺诈账户、恶意社交机器人或功能故障的节点,已成为维护复杂系统安全与稳定的核心挑战。传统的基于向量空间的异常检测方法难以有效处理图数据固有的非欧几里得结构、高维稀疏性和复杂的拓扑依赖关系。早期针对图异常检测的研究主要采用全局学习范式,如谱聚类、随机游走和矩阵分解,但这些方法难以捕捉节点间复杂的高阶依赖关系。随后,基于图神经网络(Graph Neural Networks, GNNs)的全局深度模型(如DOMINANT)通过消息传递机制学习节点表示,并利用重构误差检测异常。然而,这类全局模型存在“异常信号稀释”的问题,即在大规模邻域的多层聚合过程中,异常模式容易被平滑,导致难以检测细微或局部的异常。为解决此问题,研究趋势正从全图建模转向以子图为中心的学习方法,该类方法通过操作自我网络或k跳邻域来更好地保留局部结构和属性模式。其中,图对比学习范式通过构建和对比增强的子图视图来增强表示的判别力,将异常节点识别为局部上下文显著偏离正常模式的节点。代表性方法如SL-GAD、GraphConsis和CoLA依赖于固定长度的随机游走来生成子图视图,这种刚性采样策略在处理异质图时缺乏适应性,在稀疏区域捕获的上下文信息不足,而在稠密区域则容易过度采样冗余邻居,稀释异常信号。同时,随机游走方法存在随机偏差,倾向于高度数节点,可能无法在结构受限区域保留具有代表性的局部拓扑,这些缺点共同降低了在复杂真实图中异常检测的敏感性和鲁棒性。

为解决上述局限性,研究人员提出SubGAD,一种新颖的用于属性图的基于子图的异常检测框架。SubGAD利用子图级分析联合捕获局部偏离和全局结构不一致性。具体而言,它采用了一种结构感知的子图采样策略,该策略能自适应地平衡异质区域的邻域扩展。不同于仅依赖带重启的随机游走(Random Walk with Restart, RWR),SubGAD通过整合一阶和二阶邻居显式构建子图,确保在稀疏区域获得足够的上下文信息,同时避免在稠密区域进行冗余采样。基于这些自适应子图,研究人员构建了分层邻域表示,并执行多尺度对比学习,其中节点到子图对比捕获局部偏离,而通过图推土机距离(Graph Earth Mover’s Distance, G-EMD)实现的跨视图对比则量化了跨尺度的结构和语义差异。为进一步提高检测精度,采用子图中心化来对齐局部邻域内的节点属性,缓解跨子图的属性错位,并提升结构表示的一致性与可比性。最后,通过联合建模节点-子图对比、跨尺度子图相似性和分布差异,利用基于孤立森林(Isolation Forest)的方法在学习到的特征空间中识别结构异常点,从而实现全面且鲁棒的异常检测。该研究的核心贡献在于提出了一个自适应子图异常检测框架,引入了基于G-EMD的跨视图对齐对比策略,采用了子图中心化技术以增强属性一致性,并在多个真实数据集上验证了其优越性能。

SubGAD框架主要包含四个协同工作的模块。**首先是结构感知子图采样模块**。该模块旨在构建多样且信息丰富的子图视图,以适应图的异质结构。研究人员采用一种自适应策略,对于每个目标节点,不仅将其一阶邻居纳入子图,还根据邻域的结构密度选择性地扩展至二阶邻居。这种方法在稀疏区域能捕获更丰富的上下文以定位异常,同时在稠密区域避免引入冗余噪声,从而更好地保留了局部的判别性拓扑模式。**其次是多尺度对比学习模块**。该模块包含两个层次的对比学习。第一层是节点到子图的对比学习,旨在突出节点与其局部子图上下文之间的差异,从而直接捕捉局部结构偏离。第二层是基于图推土机距离(G-EMD)的跨视图子图对比学习。G-EMD用于度量不同视图(例如,仅包含一阶邻居的子图视图与包含二阶邻居的子图视图)中子图表示分布之间的差异,这种分布对齐机制能更精细地捕捉结构和语义层面的不一致性。**第三个关键模块是子图中心化**。在聚合子图内节点特征时,中心化操作通过减去子图内特征的均值来对齐节点表示。这有效减轻了因子图中心节点属性不同而引起的特征偏移问题,使得对比学习更专注于结构差异。**最后是基于核函数的异常检测模块**。在学习到丰富的节点和子图表示后,研究人员将节点特征与跨视图子图相似性等信息结合,构建综合特征。然后,采用基于孤立森林(Isolation Forest)的核方法,在该高维特征空间中评估每个节点的异常程度。该方法能够有效识别在综合特征分布中表现异常的孤立点。该研究使用的样本队列来源于七个广泛使用的公开基准数据集,包括Amazon、Yelp、Disney、Reddit、Tfinance、Tblog和Elliptic,涵盖了社交、商业、金融等不同领域的图数据。

**研究结果与分析**部分展示了SubGAD在多个基准数据集上的全面评估。首先,**性能对比实验**显示,SubGAD在七个数据集上始终优于所有基线方法。与最优基线相比,SubGAD的AUC(受试者工作特征曲线下面积)平均提升了1.3%至2.99%,AUPR(精确率-召回率曲线下面积)也取得了持续增益。这证明了其在检测结构异常和语义异常节点方面的卓越能力。其次,**子图采样策略分析**表明,研究人员提出的自适应邻域扩展策略(结合一阶和二阶邻居)相较于仅使用一阶邻居或固定大小随机游走的策略,能带来稳定的性能提升。这验证了自适应策略在处理异质图结构时的有效性,它能根据局部密度提供恰到好处的上下文信息。第三,**跨视图对比学习分析**证实了引入基于G-EMD的分布对齐对比学习的有效性。实验结果显示,使用G-EMD进行跨视图对齐显著优于使用余弦相似度或对比损失等其他方法,证明了其在量化不同尺度子图视图间复杂分布差异方面的优越性。最后,**消融研究**验证了框架中各个组件的必要性。移除任何一个核心模块(子图中心化、节点-子图对比、跨视图G-EMD对比)都会导致性能下降,表明这些组件协同作用,共同构成了一个鲁棒的检测系统。子图中心化对于缓解属性偏移、提升对比一致性尤为关键。

**讨论与结论**部分总结道,研究人员提出了一种名为SubGAD的基于子图的对比学习框架,用于属性图的异常检测。该框架通过建模节点与子图的关系、强制跨子图视图的一致性,并通过子图核表示捕获分布模式,以一种自监督的方式增强了节点嵌入的判别力。其主要创新点在于设计了自适应的结构感知子图采样策略,引入了基于图推土机距离(G-EMD)的跨视图对齐机制以实现尺度感知的对比学习,并采用子图中心化来减轻属性错位。在七个真实数据集上的大量实验结果表明,SubGAD能够持续优于现有的最先进方法,有效检测细微的结构和语义异常。该研究证实了多粒度对比学习在图异常检测中的潜力。未来工作方向包括将框架扩展至动态图和大规模图的场景,并探索其在更多下游任务中的应用。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号