跨视图结构感知网络用于属性缺失图聚类

《Neurocomputing》:Cross-view structure awareness network for attribute-missing graph clustering

【字体: 时间:2026年05月26日 来源:Neurocomputing 6.5

编辑推荐:

  摘要 属性缺失图聚类(attribute-missing graph clustering)是一项基础且具有挑战性的任务,旨在在部分节点属性缺失的情况下,将节点划分为不同群组。近年来,研究人员提出了多视图图表示学习(multi-view graph rep

  
摘要
属性缺失图聚类(attribute-missing graph clustering)是一项基础且具有挑战性的任务,旨在在部分节点属性缺失的情况下,将节点划分为不同群组。近年来,研究人员提出了多视图图表示学习(multi-view graph representation learning)以进行数据填充(imputation),在属性缺失图聚类中取得了显著进展。然而,现有多视图方法通常独立处理每个视图,未能充分利用属性缺失节点的跨视图结构关联。为填补这一空白,本文提出了跨视图结构感知网络(Cross-view Structure Awareness Network, CSAGC)用于属性缺失图聚类。CSAGC通过生成细粒度局部结构模式指导网络优化,从显式(explicit)和隐式(implicit)两个角度提升表示学习质量。具体而言,研究人员首先生成多个输入视图,并采用颗粒球(granular-ball, GB)采样策略将每个视图的属性矩阵划分为自适应数量的颗粒球,作为显式跨视图结构感知的局部结构先验。同时,设计了隐式拓扑监督(implicit topology supervision, ITS)机制,将基于局部结构模式构建的拓扑作为自监督信号,隐式引导网络学习更稳定且有利于聚类的图表示。最后,提出了一种新的多视图学习方法,以最大化局部与全局视图间的一致性。大量实验结果表明,CSAGC在各项指标上均优于现有最先进方法。
论文解读

**研究背景与问题**
深度图聚类(Deep Graph Clustering, DGC)随着图神经网络(Graph Neural Networks, GNNs)的发展而受到广泛关注,其核心优势在于能够揭示图数据的潜在结构及分布特征。现实应用中,如遥感、社交网络和生物医药领域,产生了大量图数据,包括节点属性和拓扑信息。现有DGC方法普遍假设图数据完整可靠,但在实际场景中,由于数据收集限制、设备故障或隐私保护政策,节点属性常常不完整或缺失,从而导致模型性能下降。这一问题即属性缺失图聚类(attribute-missing graph clustering, AMGC)。自监督图表示学习(self-supervised graph representation learning, SSGRL)成为应对这一挑战的重要途径,通过将图内在数据转化为监督信号,使模型即使在节点属性缺失情况下也能学习判别性图表示。

尽管早期单视图图自编码器(Graph Autoencoder, GAE)在节点属性重构上取得一定成效,但仅依赖单视图在信息不足或噪声干扰下容易产生误导。因此,多视图(self-supervision-based multi-view)学习被提出,通过整合结构信息与属性信息,实现跨视图互补,缓解缺失或噪声信息的负面影响。然而,现有多视图方法通常独立处理每个视图,无法捕获跨视图结构关联,特别是在属性缺失节点上,局部结构模式难以有效提取,进而导致增强视图的不可靠性,并降低聚类效果。此外,原始图拓扑虽可提供自监督信号,但其边的语义信息不均匀,在属性缺失图中定义正样本对容易引入不可靠监督,影响数据填充性能和聚类稳定性。

**研究内容与方法**
针对上述挑战,研究人员提出了跨视图结构感知网络(CSAGC),其核心思想是通过颗粒球采样(Granular-ball Sampling, GBS)策略生成细粒度局部结构模式(local structural patterns),从而实现显式(explicit)跨视图结构感知,并隐式(implicit)指导模型优化。CSAGC包含三个主要模块:

1. **显式跨视图结构感知模块(Explicit Cross-view Structure Awareness, ECSA)**
ECSA通过多跳邻居信息生成输入视图,并结合GBS生成可变数量的颗粒球(Granular Balls, GBs)作为局部结构原型(structural prototypes),从而捕获跨视图局部结构关联,为属性缺失节点提供结构先验。

2. **隐式拓扑监督模块(Implicit Topology Supervision, ITS)**
ITS利用基于视图构建的拓扑作为辅助自监督信号,逐步将监督重点从原始图拓扑过渡到视图一致的边,从而在潜在空间(latent space)中引导聚类友好(clustering-friendly)的数据填充。

3. **局部-全局学习模块(Local-Global Learning, LGL)**
LGL旨在最大化局部视图与全局视图的一致性,提高多视图下数据填充的可靠性。

**技术方法概述**
研究人员在四个公开数据集(Cora、Citeseer、Amac、Amap)上验证了CSAGC。主要技术手段包括:多视图图表示学习(Multi-view Graph Representation Learning)、颗粒球采样策略(GBS)构建局部结构模式、显式跨视图结构感知(ECSA)与隐式拓扑监督(ITS)相结合的自监督优化、局部-全局一致性学习(LGL)以及多视图融合技术。样本数据来源于公开论文引用网络和电商共购网络。

**研究结果**

- **实验设置与基准比较**
在四个真实数据集上,将CSAGC与五种多视图方法及单视图方法对比。结果显示,CSAGC在各项聚类评价指标上均显著优于其他方法,验证了其处理属性缺失节点的有效性与稳健性。

- **局部结构模式的作用**
通过GBS生成的局部结构模式,ECSA模块能够捕获跨视图局部关联,提高属性缺失节点表示质量,并增强多视图融合效果。

- **隐式拓扑监督效果**
ITS模块利用视图构建的拓扑作为自监督信号,实现潜在空间中聚类友好的数据填充,改善了单纯基于原始拓扑的不均匀监督问题。

- **多视图一致性提升**
LGL模块保证局部与全局视图的一致性,使得节点表示更稳定,从而提高聚类性能。

**讨论与结论**
研究人员总结,CSAGC通过结合显式跨视图结构感知、隐式拓扑监督及局部-全局一致性学习,实现了在属性缺失图上的高效聚类。与传统单视图或独立多视图方法相比,CSAGC充分利用了跨视图结构关联和细粒度局部结构模式,提高了数据填充质量和聚类稳定性。实验结果表明,该方法在多种公共数据集上均优于现有最先进方法,展示了其在处理属性缺失图聚类任务中的有效性和鲁棒性。论文最终结论指出,CSAGC为属性缺失图聚类提供了可靠、高效的解决方案,并为自监督多视图图表示学习提供了可推广的思路。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号