LAGraph:基于双语义对齐(Dual Semantic Alignment)的语言感知图对比表示学习

《Neurocomputing》:LAGraph: Language-aware graph contrastive representation learning via dual semantic alignment

【字体: 时间:2026年05月29日 来源:Neurocomputing 6.5

编辑推荐:

  摘要:图对比学习(Graph Contrastive Learning, GCL)已成为在图结构数据上学习表示的有力自监督范式。然而,现有GCL方法将文本节点属性视为静态特征,并依赖常破坏语义信息的随机增强(Augmentation),这一局限在文本内容携带丰

  
摘要:图对比学习(Graph Contrastive Learning, GCL)已成为在图结构数据上学习表示的有力自监督范式。然而,现有GCL方法将文本节点属性视为静态特征,并依赖常破坏语义信息的随机增强(Augmentation),这一局限在文本内容携带丰富语义关系的文本属性图(Text-Attributed Graph, TAG)中尤为突出。尽管近期无增强的GCL方法(如SimGCL、BGRL)消除了启发式扰动,但仍缺乏从文本内容中注入语义监督的原则性机制。本文提出LAGraph——一种新颖的语言感知对比框架,将预训练句子编码器(Sentence-BERT及SimCSE等基于编码器的模型而非生成式大语言模型LLM)作为语义教师(Semantic Teacher)而非被动特征提取器。LAGraph的核心创新在于用确定性、语义感知的第二视图取代随机结构增强:即由预训练句子编码器导出的稀疏k-NN语义图,配合在节点级相似度和图级分布特性上联合保持的双粒度对齐(Dual-Granularity Alignment)。LAGraph构建句子编码器诱导的语义相似度图,并在图神经网络(Graph Neural Network, GNN)得到的结构嵌入与语义嵌入之间进行节点级和图级的双语义对齐。该对比目标消除对脆弱启发式增强的依赖,同时生成兼顾结构拓扑与语义一致性的表示。研究人员在CiteSeer、Amazon-Books、ogbn-arxiv等基准数据集上的大量实验表明,LAGraph在节点分类和聚类任务上持续优于现有最优GCL方法,准确率最高提升3.7%。包含对语义图参数k的敏感性分析及统计显著性检验的详尽消融实验验证了双对齐策略的有效性及所学表示的语义连贯性。
论文解读:LAGraph——基于双语义对齐的语言感知图对比表示学习
《Neurocomputing》刊载的LAGraph论文由Yu Chen、Shengbin Hao及Shayan Nejadshamsi完成,针对文本属性图(Text-Attributed Graph, TAG)的自监督表示学习难题展开研究。文本属性图广泛存在于学术引用网络、电商推荐系统等场景,其节点附带自然语言文本,兼具结构拓扑与语义信息。现有图对比学习(Graph Contrastive Learning, GCL)方法分为两类局限:一是基于增强(Augmentation-based)的方法(如GraphCL、GRACE)对文本属性施加本为数值特征设计的随机扰动(边丢弃、特征掩码等),破坏语言连贯性;二是无增强(Augmentation-free)方法(如SimGCL、BGRL)虽规避随机扰动,但第二视图来自嵌入空间加噪或自举(Bootstrapping),对节点文本的语义内容仍保持无关(Content-agnostic)。两者均未利用预训练句子编码器捕获的文本间语义关系作为结构性监督信号。为此,研究人员提出LAGraph(Language-Aware Graph contrastive learning),将预训练编码器基句子模型(Sentence-BERT / SimCSE,非生成式LLM)作为"语义教师(Semantic Teacher)",构建语义k-NN图提供内容感知的第二视图,并通过节点级与图级双语义对齐实现结构—语义耦合的学习目标,消除启发式增强依赖且在多个基准上超越SOTA。
主要关键技术方法:
研究人员选用三个TAG基准数据集:CiteSeer(3327篇论文,6类,题+摘)、Amazon-Books(17982本书,8类,题+描述,共购买边)、ogbn-arxiv(论文引用网)。文本节点经预训练Sentence-BERT或SimCSE一次性编码为句向量,离线构建语义k-NN图(可用FAISS做近似最近邻搜索以控复杂度)。LAGraph含两个编码器分支:结构编码器为普通GNN(如GCN/GraphSAGE)在原邻接矩阵上传参得到结构嵌入Zs;语义编码器为轻量GNN在语义k-NN图上传播得语义嵌入Zsem。训练目标为双语义对齐损失——节点级用InfoNCE对比损失约束同节点跨视图正例相近、异节点相远;图级受Barlow Twins启发,用互相关矩阵冗余削减(Redundancy Reduction)对齐两视图的整体分布。推断阶段仅用结构GNN编码,无LLM推理开销。超参数含语义图近邻数k、双损失权重λ等,通过网格搜索确定。
研究结果:
Framework overview(框架概览):
LAGraph由三部分组成——(1) Structural Encoder:GNN在原图G上聚合邻域信息生成拓扑感知嵌入;(2) Semantic Encoder:浅层GNN在句子编码器诱导的语义相似度图Gsem(k-NN)上捕获文本相似性关系;(3) Dual Semantic Alignment:节点级InfoNCE损失+图级Barlow-style损失联合优化。研究人员指出这与仅把文本嵌入当初始化特征不同——语义图提供辅助拓扑结构并主动参与对比目标。
Datasets(数据集):
如上所述,选用CiteSeer、Amazon-Books、ogbn-arxiv三数据集分别代表中小规模引文网、大规模共购网及大型引文网,验证跨领域泛化性。
Experimental Setup and Results(实验设置与结果):
在节点分类(Linear Probing或半监督微调)与节点聚类(K-Means, NMI/ARI指标)任务上对比GraphCL、GRACE、SimGCL、BGRL及仅用GNN基线。LAGraph在三项数据集上Micro-F1 / Accuracy均超SOTA,CiteSeer最高相对提升约3.7%。聚类指标NMI与ARI同样显著优于对比方法,证明学到的嵌入具更优语义区分度。
Ablation Studies(消融实验):
移除节点级对齐或图级对齐任一支均致性能下降,二者联合效果最佳,验证双粒度设计必要。换用不同句子编码器(SBERT vs SimCSE)影响微小,说明框架对合理语义教师具鲁棒性。敏感性分析显示k在适中范围(如k=5~20)内稳定,过大引入噪声、过小丢失语义连边。配对t检验确认增益具统计显著性(p<0.05)。
Complexity Analysis(复杂度分析):
时间开销主要增量为全量节点句子编码(一次预处理O(N·d·L)可并行)及k-NN构图(借助FAISS降至近线性),GNN训练阶段与标准GCL同阶。内存额外存储语义邻接稀疏矩阵,可接受。说明LAGraph在百万级节点下可通过近似搜索扩展,优于需逐节点调LLM的提示法。
讨论与结论(翻译浓缩):
本研究引入LAGraph——一种新颖的语言感知图对比学习框架,重新定义了预训练句子编码器在TAG表示学习中的角色。通过将句子编码器定位为语义教师来构建互补语义视图(而非被动特征提取器),LAGraph消除对脆弱启发式增强的依赖并取得更优性能。所提双语义对齐机制在节点级保持细粒度语义相似性,在图级保持粗粒度分布一致性,使学到的表示同时具备拓扑保持性与语义一致性。大量实验证实其在节点分类与聚类中超越现有SOTA GCL方法。未来研究方向包括面向超大规模TAG的语义图稀疏化策略及将语义教师机制拓展至异构图与动态图场景。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号