《Neurocomputing》:One-step multiview anchor graph clustering via semantic alignment
编辑推荐:
未对齐多视图聚类(Unaligned Multi-view Clustering, UMVC)旨在解决多视图数据的异构性问题。现有多步方法追求特征对齐(feature alignment),但常获得含视点特有噪声的高维亲和图(affinity graphs),
未对齐多视图聚类(Unaligned Multi-view Clustering, UMVC)旨在解决多视图数据的异构性问题。现有多步方法追求特征对齐(feature alignment),但常获得含视点特有噪声的高维亲和图(affinity graphs),且依赖最优视图特征而忽略全局信息。为此,研究人员提出了一种基于语义对齐的一步多视图锚图聚类(One-step Multi-View anchor graph Clustering via Semantics Alignment, OMVCSA)算法。首先,为获取纯净锚图,研究人员对各视图的锚图进行分解以获得强一致性锚图(consistency anchor graph)。其次,为提升性能并利用全局信息进行对齐,研究人员设计了一步语义对齐学习(One-step Semantic Alignment Learning, OSAL)模块,通过语义标签矩阵将其他视图与最优视图对齐,减轻最优视图性能扰动。第三,研究人员将一致性分解锚学习与OSAL集成至统一框架中以重构锚图间的对应关系。在八个数据集上的实验表明OMVCSA具有优越性。
论文解读:基于语义对齐的一步多视图锚图聚类(OMVCSA)
一、研究背景与意义
多视图数据(Multi-View Data, MVD)能提供跨视图的互补信息,多视图聚类(Multi-View Clustering, MVC)旨在寻求统一表示以获得聚类结果。现有MVC方法主要包括非负矩阵分解(Non-negative Matrix Factorization, NMF)、图学习(graph learning)及子空间学习(subspace learning)。其中子空间MVC方法通过自表示矩阵挖掘潜在结构,但高维度限制了大规模数据的可扩展性。锚图学习(anchor graph learning)通过重构低维图缓解了此问题,且一步聚类(one-step clustering)方法通过将图学习与标签生成集成至统一框架直接输出离散标签,消除了多步流水线的累积误差。然而,上述方法均假设各视图数据是对齐(aligned)的。在实际场景中,由于数据采集成本高,常出现跨视图未对齐(unaligned)情况,即样本间缺乏一一对应关系,导致传统MVC性能下降。
现有处理未对齐多视图数据(Unaligned MVD)的方法虽通过选定最优视图(Best Alignment View, BAV)进行特征对齐,但仍存在两点不足:(1) 直接在特征层面匹配易将BAV特有的噪声和伪影传递至其他视图,造成跨视图噪声传播;(2) 构建的高维亲和图阻碍大规模数据处理且含大量视点特有噪声。针对此,研究人员来自江南大学(Key Laboratory of Advanced Process Control for Light Industry, Ministry of Education, Jiangnan University)开展了本研究,提出OMVCSA方法,将对齐过程从特征级提升至语义级,并结合锚图一致性分解与t-SVD-based截断核范数(truncated Tensor Nuclear Norm, TNN)挖掘高阶关联。该论文发表于《Neurocomputing》。
二、主要关键技术方法
研究人员首先利用三个聚类指标投票选取最优对齐视图(Best Alignment View, BAV);随后对各视图构建锚图并进行一致性分解,分离出强一致性锚图以滤除视点特有噪声并降维;设计一步语义对齐学习(One-step Semantic Alignment Learning, OSAL)模块,以无监督离散语义标签矩阵Y作为"全局纯净模板",保持BAV对齐矩阵为单位矩阵,通过正交约束防止噪声侵入离散语义空间,将其他视图向语义空间对齐而非向特征空间对齐;最后将一致性锚图张量化后引入基于t-SVD的TNN正则项捕获跨视图高阶相关性,整体模型采用交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)求解,直接在八个真实世界数据集上验证。
三、研究结果
Anchor graph learning(锚图学习)
子空间MVC通常需从原始维度构建亲和图,计算复杂度高。研究人员采用锚图学习,为每个视图选取m个锚点(m为聚类数k的整数倍),构造样本-锚点亲和图,将原始n×n图降至n×m,显著缓解计算负担,为后续一致性分解提供基础。
Notations and definitions(符号与定义)
给出张量(block circular matrix)、对角张量(diagonal tensor)、单位张量(identity tensor)及正交张量(orthogonal tensor)的形式化定义,并明确采用t-SVD(tensor Singular Value Decomposition)框架下的截断核范数(TNN)来度量对齐后锚图张量的低秩性,以挖掘视图间的高阶相关性。
One-step semantic alignment(一步语义对齐)
针对未对齐MVD存在的视图特有排列扰动,研究人员放弃传统特征对齐策略,提出OSAL模块。研究人员通过投票确定BAV后,对各视图锚图作一致性分解得到净化的一致锚图;利用离散正交标签矩阵Y(YTY=I)作为跨视图共享语义表征,BAV的对齐矩阵固定为单位阵仅用于激活语义空间,其余视图通过对齐矩阵将一致锚图映射至Y定义的语义空间。该过程在联合目标函数中与低秩约束同步优化,降低了对单一BAV质量的依赖并阻断特征级噪声传播。
OPTIMIZATION(优化求解)
研究人员引入辅助变量将最终目标函数转化为ADMM可求解形式,通过交替优化锚图、对齐矩阵、语义标签矩阵Y、辅助变量及拉格朗日乘子,惩罚参数自适应更新,保证收敛性。
EXPERIMENT(实验)
研究人员在八个公开数据集上将OMVCSA与多种先进算法对比,实验于AMD Ryzen9 9900X、32GB RAM、MATLAB 2024b环境下运行。结果表明OMVCSA在聚类精度(Accuracy, ACC)、归一化互信息(NMI)及调整兰德指数(Adjusted Rand Index, ARI)上均优于对比方法,验证了一致性锚图分解去噪、语义级对齐抗噪及一步框架消除累积误差的有效性,同时具备较好的大规模数据适应性。
四、讨论与结论翻译
研究人员总结:本文提出一种基于语义对齐的一步多视图锚图聚类(OMVCSA)方法。在确定最优对齐视图(BAV)后,利用强一致性锚图分解学习获取不含混淆信息的锚图;保留BAV的结构特征,并通过视图特有对齐矩阵配合新颖的标签对齐策略探索其与其他视图的关系;此外,利用基于t-SVD的截断张量核范数(TNN)考察所有视图间的高阶相关性。在八个真实世界数据集上的实验验证了所提方法的有效性。
Credit authorship statement: Shuqi Wang: Writing – original draft. Jun Kong, Min Jiang, Xuefeng Tao: Writing – review & editing.
基金资助:国家自然科学基金(62371209, 62371208);江苏省研究生科研与实践创新计划(KYCX24_2515);111引智基地(B12018)