通过广义的边到顶点变换和补充的图信息瓶颈来增强图表示
《Expert Systems with Applications》:Enhancing Graph Representations via Generalized Edge-to-Vertex Transforms and Supplementary Graph Information Bottleneck
【字体:
大
中
小
】
时间:2026年04月30日
来源:Expert Systems with Applications 7.5
编辑推荐:
王瑞婷|赵玉香|甘婷
武汉大学计算机科学学院,武汉,430072,中国
摘要
无监督图表示学习因其在建模复杂结构和高维特征方面的显著性能而受到了广泛关注。然而,当前的图表示学习方法仍面临一些实际限制,原因如下:单一判别表示的表达能力不足以及信息传输过程中的冗余,导致
王瑞婷|赵玉香|甘婷
武汉大学计算机科学学院,武汉,430072,中国
摘要
无监督图表示学习因其在建模复杂结构和高维特征方面的显著性能而受到了广泛关注。然而,当前的图表示学习方法仍面临一些实际限制,原因如下:单一判别表示的表达能力不足以及信息传输过程中的冗余,导致学习到的特征向量可能偏离高质量表示。为了解决这些限制,我们探索了一种新颖且通用的边到顶点的无损转换方法。基于这种转换过程生成的线图,我们进一步提出了SUNGIB作为一种补充的图信息瓶颈解决方案。SUNGIB强制压缩原始图和线图中的信息,从而帮助模型学习更紧凑的特征向量。此外,它利用线图的特征来补充原始图的抽象空间转换状态,实现更丰富的信息映射。在十三个公共数据集上的广泛实验表明,我们的方法在各种下游任务中均优于最新的先进方法。
引言
图结构作为一种常见的数据结构,在许多领域得到广泛应用,例如社交网络(Fan等人,2019年);多媒体分析(Wang等人,2021年);化学分子(AlQuraishi,2019年);视频中的行为和事件识别与理解(Luo等人,2020年)。在图结构中,顶点通常表示实体的描述,而边则表示这些实体之间的特定类型的关系。顶点和边中的信息丰富性使得图能够描述几乎任何类型的结构或系统。例如,我们可以通过识别化学分子中的官能团信息来确定化合物的性质(Gilmer等人,2017年)。图在视频检索、监控和推荐中也发挥着关键作用(Luo等人,2020年)。最近,基于图数据的表示学习技术受到了广泛关注(Al-Thulaia和Hashemi Golpayegani,2026年;An等人,2026年),特别是无监督图表示学习(UGRL)。UGRL旨在从图中提取高阶信息,并获得真实反映原始空间拓扑的向量,而无需引入人工注释。
现有的UGRL方法通常旨在最小化单模损失或最大化节点表示之间的互信息。Hou等人(2022年)提出使用掩码策略和缩放余弦误差进行特征重建。Velickovic等人(2019年)通过最大化正样本对的互信息来区分正样本和负样本——这鼓励学习到的表示保留图的关键结构信息,同时最小化负样本对的互信息。Sun等人(2022年)从信息论的角度提出了一种新的变分信息瓶颈引导的图结构学习方法。Liu等人(2023b年)基于子图采样生成不同尺度的全局和局部视图,并根据它们的语义关联构建了多种对比关系。尽管上述研究取得了显著的性能提升,但UGRL方法在效率和效果方面仍存在一些限制。
一方面,单模损失缺乏足够的表现能力和区分度,难以学习出具有区分性的表示。对于以重建为学习目标的图表示学习方法,通常使用先前的图编码器来捕获潜在特征和结构。然而,这种方法往往使图编码器过度关注重建过程的每一个细节,从而忽略了学习高质量表示向量的目标(Peng等人,2023年)。另一方面,基于互信息的图表示学习可能会遇到信息冗余的问题。在模型学习过程中,对节点表示的多样性没有明确的约束,导致表示空间中的某些特征被不必要的重复学习,从而导致信息冗余。
为了解决上述问题,我们提出了基于补充图信息瓶颈的图表示学习网络SUNGIB。我们首先讨论了传统边到顶点转换中的信息损失问题,并提出了通用的边到顶点转换方法。SUNGIB通过对原始图进行通用边到顶点转换,构建了一个线图作为原始图的补充模态。随后,利用原始图和线图来过滤冗余信息,迫使模型学习更紧凑的特征向量,以最大化自我表示。此外,线图被用作原始图抽象空间转换状态的补充,以补偿在信息过滤过程中丢失的非冗余信息。与以往的研究相比,我们提出的方法的主要贡献如下:
- 我们提出了一种专门的边到顶点转换方法,将边到顶点转换从连接图扩展到通用图结构。此外,我们证明了通过此过程获得的线图是无损的。
- 我们提出了SUNGIB作为一种补充图信息瓶颈解决方案。SUNGIB最大化了特征嵌入,将线图作为原始图特征向量的补充,旨在为下游任务提供更丰富的图表示。
- 我们在图级任务和节点级任务上进行了广泛的实验,实验结果表明SUNGIB优于当前的先进图表示学习方法。
初步介绍和相关工作
符号说明。给定图G=(V,E,X),其中V=(v1,v2,…,vN)表示顶点集,N表示顶点数量,E表示边集。X=[x1,x2,…,xN]T∈RN×D表示顶点属性矩阵,xi表示顶点vi的D维属性向量。常用符号列在表1中。
视图生成器
最近关于图表示学习的研究表明,增强图生成视图的比较可以丰富编码器的表示学习(Bachman等人,2019年;Tian等人,2020年)。在本文中,我们关注两种广泛使用的结构或增强方法:(1)邻接矩阵,直观反映了图的完整结构;(2)KNN图(Cover和Hart,1967年),它使用原始属性来计算顶点间的相似性。
基于方程(10)、(11)和(12)中描述的界限,整体训练目标为:
L=Ep(Gv)[Ep(Zv?∣Gv)[logq(Gv∣Zv?)]]+Ep(H)[Ep(Ze?∣H)[logq(H∣Ze?)]]?β[Ep(Gv,Ze?)[logq(Ze?∣Gv)]?Ep(Gv)p(Ze?)[logq(Ze?∣Gv)]]
方程(13)右侧的第一部分是顶点图Gv的重建损失。第二部分是线图H。第三部分是变分对比对数比率上界损失。我们希望使用重建后的Gv作为主要框架来补充信息。
实验
在本节中,我们将通过一系列实验来证明所提出架构的有效性。大多数实验在配备12个vCPU Intel(R) Xeon(R) Platinum 8255C CPU(2.50GHz)、43GB RAM和NVIDIA 3090 GPU的Ubuntu服务器上进行。节点分类的实验在配备15个vCPU AMD EPYC 7543 32核处理器和NVIDIA A40 GPU的服务器上进行,因为这些任务需要大量内存。节点和图分类模型使用PyTorch实现。
信息补充的效果
为了验证信息补充瓶颈对模型性能的影响,我们在图分类和节点分类任务上进行了消融实验,实验结果如图6所示。补充信息瓶颈可以通过压缩线图信息来增强原始图表示。对于原始图表示中可能存在的缺失或不完整信息,
结论
在本文中,我们探索了一种特定的边到顶点转换过程,将边到顶点转换从连接图扩展到通用图类别。在此基础上,我们提出了补充图信息瓶颈网络(SUNGIB),它通过限制学习到的顶点图表示来捕获数据中的关键特征信息,同时过滤掉冗余信息。随后,我们结合了获得的线图。
作者贡献声明
王瑞婷:概念化、方法论、软件开发、形式分析、验证、数据整理、撰写初稿。
赵玉香:撰写、审稿、编辑、数据整理。
甘婷:监督、项目管理。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文所述的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号