鲁棒的对比多视图子空间聚类

《Pattern Recognition》:Robust contrastive multi-view subspace clustering

【字体: 时间:2026年04月12日 来源:Pattern Recognition 7.6

编辑推荐:

  多视图聚类中的对比学习脆弱性问题及鲁棒框架研究,提出统一正概率融合多视图邻接图和鲁棒对比损失,通过数据自表示、系数正则化、跨视图共识对齐三个互补阶段提升聚类鲁棒性,实验验证其有效性。

  
Bing Cai|Ping Dai|Shupin Wang|Gui-Fu Lu
安徽信息技术学院计算机与软件工程学院,芜湖,241000,中国

摘要

对比学习作为一种强大的多视图数据分析范式,通过利用多个视图来形成正负对,从而进行表示学习和聚类。然而,传统的基于比率的目标在邻域图包含不准确信息时表现出脆弱性。不匹配的对会导致过大的梯度,从而影响数据重建、系数学习和共识对齐。为了解决这个问题,我们提出了一个基于统一正概率的鲁棒对比学习框架,用于多视图子空间聚类。该概率通过融合的邻域图汇总了所有正负对的信息。结合可调的鲁棒对比损失,我们的方法在保留可靠信息的同时自动减少了低置信度对的贡献。我们在三个互补的层面上实现了这一理念,包括数据自我表示、系数正则化和跨视图共识对齐。在多种基准测试上的广泛实验表明,该方法在各种场景下都能保持性能提升和增强鲁棒性,验证了其有效性。

引言

使用多个视图对数据进行聚类在机器学习和数据挖掘中已成为一项重要任务,因为多视图数据自然包含了来自不同模态或特征提取器的互补信息。多视图聚类方法[1]、[2]旨在利用这种互补信息来提高聚类性能,超越任何单一视图的性能界限。传统方法包括多视图子空间聚类(MVSC),它将每个数据点表示为同一子空间内其他点的线性组合,并在多个视图之间寻找块对角结构[3]、[4]、[5]。通过学习视图特定的自我表示矩阵并将它们整合到共识矩阵中,这些方法可以捕捉多视图数据的共享子空间结构,通常随后进行谱聚类以获得最终的聚类分配。已经开发了MVSC的变体来处理高阶相关性、潜在空间表示和流形结构,在复杂场景下实现越来越准确的聚类结果[6]、[7]、[8]。
近年来,对比学习[9]、[10]、[11]作为一种强大的多视图子空间聚类范式出现。通过构建正对(例如,不同视图中的实例及其邻居)和负对(非邻居),对比学习鼓励嵌入或系数矩阵将相似样本拉在一起,同时将不相似的样本分开。Pan和Kang[12]利用基于k最近邻(k)的正对和对比损失,证明了即使是轻量级模型也能有效捕捉邻域结构。Wei等人[13]将对比学习应用于表示和融合阶段,并取得了有竞争力的聚类结果。深度对比子空间聚类方法[14]、[15]通过结合神经编码器来更好地捕捉复杂的视图特定表示,并改善跨视图对齐。
尽管取得了这些进展,当前的对比学习MVSC方法仍面临重大挑战。一个关键问题是假正或假负对,例如在邻域图中错误标记为邻居或非邻居的实例。这些对可能在基于比率的对比损失中引起过大的梯度。这种梯度偏差会通过子空间聚类的三个阶段传播:(i)数据自我表示,比较原始特征和重建特征;(ii)系数正则化,学习每个视图的块对角矩阵;以及(iii)跨视图共识对齐,将视图特定的系数整合到共享的共识中以进行谱聚类。对错误标记对的这种敏感性可能导致对假正对的过度拟合,无法有效利用可靠的邻域结构,最终导致聚类性能不稳定。
为了解决这个问题,我们提出了一个鲁棒的对比多视图子空间聚类(RCMSC),它在保持简单性的同时减轻了这种敏感性,如图1所示。RCMSC用一个统一的正概率替换了基于成对比率的目标,该概率汇总了由融合的多视图邻域图定义的所有正负对的证据。通过建模多个成对关系,我们的方法减少了单个错误标记对的影响并稳定了训练过程。这种概率与可调的鲁棒对比损失相结合,自动减少了低置信度对的贡献,同时保留了可靠信息。
我们在MVSC的三个互补层面上实现了这一鲁棒对比原则:(i)数据自我表示,强制邻域内原始特征和重建特征之间的一致性;(ii)系数正则化,鼓励视图特定系数展示块对角结构,并与融合的共识对齐;(iii)跨视图共识对齐,确保每个视图的亲和力趋向于统一的表示。这种整合提高了整个聚类过程的鲁棒性,使模型更能抵抗图噪声,同时保持架构的简洁性。
本文的贡献包括:
  • 我们引入了一种基于概率的聚合策略,用于正负邻域,减轻了错误标记对的梯度主导效应,并在图不准确的情况下提高了稳定性。
  • 我们提出了一种鲁棒的对比损失,可以自动减少低置信度对的贡献,同时保留了有影响力的信息。
  • 鲁棒的对比损失应用于三个关键阶段,实现了性能的一致提升,并保持了架构的简洁性。
  • 在多种基准测试上的广泛实验表明,该方法在准确性和对抗图噪声的鲁棒性方面都有显著提升,验证了其实际有效性。

相关工作

多视图聚类由于可以从多种模态或特征提取器收集数据而受到了广泛关注,这些数据为发现潜在的聚类结构提供了互补信息。在各种方法中,基于子空间的方法和基于对比学习的方法已被证明是有效的方法。

方法

在本节中,我们介绍了RCMSC框架。首先介绍数据和符号,然后描述了统一的正概率和鲁棒对比损失,最后解释了这些如何在MVSC的三个阶段中应用:数据自我表示、系数正则化和跨视图共识对齐。

实验

在本节中,我们评估了RCMSC的有效性。我们介绍了数据集、基线方法和评估指标,然后报告并分析了实验结果,包括消融研究和参数敏感性分析。

结论

在本文中,我们提出了RCMSC,这是一种基于统一正概率的鲁棒对比聚类框架。通过将所有正负关系汇总为单一的概率形式,并引入可调的鲁棒对比损失,RCMSC有效地减轻了错误标记或低置信度对的影响。所提出的机制在三个关键阶段得到实施,确保了整个聚类过程的一致鲁棒性。在多种基准测试上的广泛实验表明...

CRediT作者贡献声明

Bing Cai:撰写——原始草稿、可视化、软件、资源、方法论、调查、形式分析、数据策划、概念化。Ping Dai:验证、资源、资金获取。Shupin Wang:可视化、验证、资源、概念化。Gui-Fu Lu:撰写——审稿与编辑、资金获取。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本研究部分得到了中国国家自然科学基金(项目编号:61976005)的支持,部分得到了安徽省教育厅科研项目(项目编号:2025AHGXZK30749)的支持,部分得到了芜湖市科技计划项目(项目编号:2025kj041)的支持,部分得到了安徽信息技术学院青年基金会(项目编号:23QNJJKJ001)的支持,以及安徽信息技术学院智能教育研究团队的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号