基于BiGTex的文本属性图中结构信号与语义信号融合

《Machine Learning with Applications》:Integrating structural and semantic signals in text-attributed graphs with BiGTex

【字体: 时间:2026年05月24日 来源:Machine Learning with Applications 4.9

编辑推荐:

  文本属性图(Text-attributed Graphs, TAGs)在表示学习中带来独特挑战:模型不仅需要捕获与节点相关联文本的语义丰富性,还需要建模图结构中的依赖关系。尽管图神经网络(Graph Neural Networks, GNNs)能够有效建模拓扑

  
文本属性图(Text-attributed Graphs, TAGs)在表示学习中带来独特挑战:模型不仅需要捕获与节点相关联文本的语义丰富性,还需要建模图结构中的依赖关系。尽管图神经网络(Graph Neural Networks, GNNs)能够有效建模拓扑信息,但其在处理非结构化文本数据方面存在局限。相对地,大语言模型(Large Language Models, LLMs)在文本理解方面表现优异,却缺乏对图结构的感知能力。

为弥补这一鸿沟,研究人员提出了BiGTex,这是一种围绕新型模块化组件——图文融合单元(Graph-Text Fusion Unit)构建的混合架构。通过堆叠该类单元,BiGTex实现了文本表示与结构表示之间紧密的、双向的交互,使文本能够引导结构推理,同时图拓扑能够在每一层内细化语义解释。这一点有别于既有的顺序式或松散耦合式方法。该模型采用参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)中的LoRA(Low-Rank Adaptation,低秩适配)机制,从而保留预训练LLM的效率优势。

在多个TAG基准数据集上的全面实验表明,BiGTex在节点分类任务上达到当前最优(state-of-the-art)性能,并且能够有效泛化至链路预测任务。消融研究进一步证实,双向图—文本交互在提升表征质量方面具有关键作用。

总体而言,该研究的贡献包括:(i)提出了一种新型混合架构,通过双向图文融合机制将预训练语言模型与GNN集成;(ii)提出了一种机制,将结构token注入LLM,并通过可学习的图文融合模块细化表示;(iii)提供了经验证据,表明BiGTex相较于当前最优的GNN与LLM增强型基线,在多个基准数据集上均取得持续强劲且往往更优的性能,凸显了该方法在真实图任务中的鲁棒性与实际有效性。
该文发表于《Machine Learning with Applications》,围绕文本属性图(Text-Attributed Graphs, TAGs)的表示学习展开研究。文本属性图中的节点同时具有图结构关系和文本属性,因此模型需要联合建模拓扑依赖与文本语义。然而,现有图神经网络(Graph Neural Networks, GNNs)主要依赖消息传递机制,擅长从邻接关系中抽取结构信息,却难以直接处理非结构化文本;大语言模型(Large Language Models, LLMs)或更广义的预训练语言模型(Pretrained Language Models, PLMs)则在文本理解与上下文化表示方面具有显著优势,但缺乏对图连接模式、局部邻域和多跳依赖的显式建模能力。已有方法通常采取两类思路:其一是先用语言模型编码文本,再将得到的嵌入输入GNN;其二是先用GNN生成结构表示,再将其与文本一并送入语言模型。这些方法虽然一定程度上利用了双模态信息,但大多停留在顺序式处理或松散耦合联合训练层面,缺少结构信息与语义信息在层间持续、细粒度、双向交互的系统机制。正是在这一背景下,研究人员开展了本研究,旨在构建一种能够在统一框架下实现图结构与文本语义深度双向融合的方法,从而提升文本属性图上的节点表示质量及下游任务表现。

研究人员提出了BiGTex,这是一种面向文本属性图的混合架构,其核心构件为图文融合单元(Graph-Text Fusion Unit)。该框架将GNN模块与PLM模块按层紧密耦合,并通过堆叠多个融合单元,形成结构信息与语义信息反复交互、逐层细化的表示学习过程。与以往单向传递不同,BiGTex一方面将GNN产生的结构表示作为软提示(soft prompt)注入PLM输入序列,使语言模型在自注意力计算时感知图结构;另一方面再将PLM输出的语义表示反馈并融合到GNN中,使图消息传递过程吸收文本语义线索。研究结果表明,该框架在多个基准数据集上于节点分类任务取得优异结果,并可迁移到链路预测任务,说明其学习到的双模态节点嵌入具有良好的泛化性与可迁移性。文章的重要意义在于:其不仅提出了一个新的图—文本协同建模范式,还通过模块化设计证明,轻量级PLM与GNN之间的双向闭环交互,可以在保证参数效率的同时实现高质量表征学习,为文本属性图建模提供了具有普适性的架构思路。

在技术方法方面,作者主要采用以下几类关键方法。其一,以BERT-base作为文本编码骨干,并通过LoRA(低秩适配)实施参数高效微调,仅更新少量低秩参数以降低训练成本。其二,构建图文融合单元,在每层中将上一层图表示投影为结构token并前置于文本序列,再由PLM生成上下文化语义表示,并反馈至GNN进行邻域聚合。其三,设计了多种融合策略,包括基于多层感知机(MLP)、自编码器(Autoencoder, AE)和交叉注意力(Cross-Attention)的融合变体。其四,在多个公开文本属性图数据集上进行评估,主要数据集包括ogbn-Arxiv、ogbn-Products子集、PubMed、Ele-Photo和Arxiv2023,原始文本数据来源于既有公开整理版本,并采用官方划分或60/20/20训练、验证、测试划分方案。

以下结合论文主体各部分内容进行解读。

一、Introduction
引言部分首先界定了文本属性图的应用场景,如引文网络中论文节点附带标题或摘要,社交网络中用户节点附带文本化个人信息。作者指出,GNN虽在节点分类、链路预测等图任务中表现强劲,但通常仅围绕结构与初始特征开展消息传递,无法充分利用文本属性;LLM则能从文本中提取深层语义,却不能自然建模图拓扑。因此,将二者结合成为重要研究方向。论文进一步梳理了已有三类方法:仅依赖LLM的方法、GNN与LLM的顺序集成方法、以及更紧密的联合表示学习方法。基于这些分析,作者强调现有工作要么在文本编码时忽略图结构,要么难以让语言模型进行图感知更新,因此需要更紧密的双向融合机制。BiGTex正是在这一问题意识下提出,其通过图文融合单元实现结构到语言、语言到图的迭代反馈。

二、Preliminaries
这一部分给出了理论基础。作者形式化定义了文本属性图,由节点集合、邻接矩阵、节点文本序列集合和标签空间组成;同时说明研究涉及的三类任务为节点分类、链路预测和节点聚类,其中本文核心关注节点分类。随后,文章回顾了GNN的消息传递框架,即节点在第k层通过聚合邻域表示并经更新函数得到新表示。接着介绍Transformer中的注意力机制、多头注意力、PLM的预训练—微调范式,以及编码器式模型与解码器式模型在目标函数上的区别:前者典型采用掩码语言建模(Masked Language Modelling, MLM),后者采用因果语言建模(Causal Language Modelling, CLM)。作者还特别说明,本文选用BERT-base这一紧凑型编码器式PLM,主要出于表示学习任务适配性和训练效率方面的考虑,并在微调时采用LoRA以减少资源消耗。

三、Related work
文献综述将现有研究分为三类。
1. Representation learning with only large language models
该部分总结了仅使用LLM处理文本属性图的方法。此类方法通常只依赖节点文本而忽略图结构,虽然在零样本、提示学习和文本语义泛化方面具有优势,但在复杂图推理、局部连接模式建模和多跳依赖表达方面存在明显不足。作者据此论证,仅靠语言模型不足以完整表征图数据。
2. Sequential integration of GNNs and LLMs
该部分讨论顺序式集成方法,包括“LLM→GNN”和“GNN→LLM”两种方向。前者如TAPE、SimTeG等,先用语言模型生成节点语义嵌入,再交由GNN学习结构;后者如GraphGPT、GIMLET等,将图表示作为提示或附加特征送入语言模型。作者指出,这类方法信息流通常单向,且两个模块常常独立训练,难以实现表征空间的一致性和持续协同适配。
3. Joint representation learning with GNN–LLM integration
该部分总结了GLEM、ENGINE、GraphAdapter、GreaseLM、DGTL、ConGraT等联合学习框架。这些方法比顺序式方法更强调结构—语义对齐,但仍常依赖大规模冻结LLM、额外适配器、对比学习目标或不对称交互。论文据此突出BiGTex的差异:采用轻量级PLM,通过双向图文融合单元在每层实现更细粒度的互相调节,从而兼顾深度融合与计算效率。

四、Proposed framework: BiGTex
这是论文的核心方法部分。作者首先给出整体架构:BiGTex由多个顺序堆叠的图文融合单元组成,每个单元同时包含GNN和PLM模块。每个单元的输入包括邻接矩阵、节点文本、以及前一融合单元输出的节点表示;对于第一个单元,则以初始节点特征替代前层输出。
在Graph-text fusion architecture中,作者先用初始GNN0对原始节点特征进行结构编码,生成初始结构感知表示。这一步的作用是为后续图文融合提供基础拓扑信号。随后,上一层输出ol?1经投影后作为结构token拼接到节点文本序列前,并用[SEP]分隔,再送入PLM。PLM在自注意力机制中同时关注文本token和结构token,从而产生带有图感知的语义表示。之后,PLM输出与当前图表示通过轻量融合模块整合,再输入GNN,依靠邻域聚合得到当前层最终节点表示。这样,BiGTex在每一层都实现了“GNN→PLM→GNN”的闭环。
在Fusion variants部分,作者设计了三种融合方式。MLP-based fusion采用拼接后经前馈映射的方式融合图表示与文本表示,具有较高计算效率;AE-based fusion通过自编码器瓶颈层构造紧凑联合表示,并用重建约束促使模态对齐;Cross-attention-based fusion则令图表示作为查询(Q),文本表示作为键(K)和值(V),通过注意力选择与结构最相关的语义特征。三种方式为BiGTex提供了不同的表达能力—效率权衡。
在Training strategy and fine-tuning部分,作者说明:若PLM为编码器式模型,则提取[CLS]位置表示;若为解码器式模型,则采用全部token隐藏状态均值表示。针对节点分类任务,模型在最终输出上接入多头分类器,每一类对应一个轻量MLP头。训练时GNN参数全部更新,而PLM参数主体冻结,仅通过LoRA注入低秩可训练矩阵完成适配。整体优化目标是标注节点上的交叉熵损失。

五、Experiments and results
1. Experimental setup
实验统一采用BERT-Base作为默认预训练编码器,LoRA秩设置为8,使用PyG 2.5并在GeForce RTX 4090 GPU上运行。
2. Datasets
作者在多个常用文本属性图数据集上验证模型,包括ogbn-Arxiv、ogbn-Products子集、PubMed、Ele-Photo和Arxiv2023,此外表格中也列出了Cora结果。各数据集在图规模、节点度、类别数与文本属性丰富度上具有差异,因此适合检验模型泛化能力。
3. Baselines
基线涵盖两类:一类是仅依赖结构和原始特征的GNN模型,如MLP、GCN、GAT、GraphSAGE;另一类是结合语言模型的混合方法,如GAINT、TAPE、SimTeG、GLEM、ENGINE。
4. Main results (node classification task)
节点分类主结果显示,BiGTex在多个数据集上取得了竞争性甚至最优表现。尤其是在Cora、PubMed、Products(subset)、Ele-Photo等数据集上,BiGTex各融合变体广泛优于传统GNN和多种LLM增强型基线。作者强调,不同融合策略得到的性能较为接近,说明真正关键的是图—文本双向交互范式,而不仅是某一种特定融合算子。结果还表明,即使在节点文本较短或噪声较大的场景中,BiGTex仍能利用邻域结构弥补语义信号不足。
5. Visualizing embedding quality with t-SNE
研究人员使用t-SNE对ogbn-Arxiv和Arxiv2023上的节点嵌入进行二维可视化,并与原始特征、SimTeG和TAPE的嵌入比较。结果显示,BiGTex生成的表示具有更清晰的类间分离结构,说明其学到的嵌入在潜空间中具有更强判别性。
6. Link prediction task
在不针对链路预测额外微调的前提下,作者直接复用节点分类阶段获得的节点嵌入进行边存在性预测,并以AUC评估。结果表明,BiGTex在Arxiv2023上优于对比方法,并在ogbn-Arxiv上表现出较强竞争力,且整体优于仅用原始图特征的基线,说明其表示具有下游任务迁移能力。
7. Ablation study
消融实验分别去除LoRA、软提示、二者同时去除,以及去除初始GNN0。结果显示,完整BiGTex整体表现最好;移除LoRA后各数据集性能明显下降,说明参数高效微调对PLM适配图任务至关重要;去除软提示也会稳定降低性能,表明将结构token注入PLM输入空间对于实现图感知文本建模十分关键;同时去除二者会造成更剧烈退化,反映二者具有互补性;去掉GNN0后性能普遍下降,说明早期局部结构编码为后续融合奠定了必要基础。
8. Ablation on initial feature representation
作者比较了使用原始稀疏词汇特征与直接使用PLM预计算嵌入作为初始节点特征的差异。结果表明,后者在所有数据集上均导致性能下降,尤其在Cora和PubMed上退化明显。论文据此指出,在BiGTex中,语义信息已经在每个融合单元内通过PLM迭代注入,若在输入层直接使用PLM嵌入,反而可能造成语义冗余、特征同质化并削弱逐层协同学习的收益。
9. Effect of stacked graph-text fusion units on BiGTex performance
作者系统考察了堆叠1至5个图文融合单元的影响。结果显示,从1层增加到2层时性能提升最为明显,而更深层数带来的收益逐渐减弱并呈现数据集依赖性。这说明BiGTex在较小深度下已经能够充分实现结构与语义的有效耦合,2个融合单元在性能和复杂度之间提供了较好平衡。
10. Effect of language model type
作者进一步比较了BERT-base、SciBERT、DeBERTa-base和GPT-2。实验显示,编码器式模型整体显著优于解码器式GPT-2,尤其在大规模复杂图上差距更大,说明节点级表示学习更适合依赖双向上下文建模。SciBERT在PubMed和ogbn-Arxiv这类科学引文图上优于BERT,反映了领域预训练语料和专业词表对学术文本图任务的优势。BERT则在整体上保持稳定且强劲的表现。

六、Discussion与Conclusion
讨论与结论部分总结指出,BiGTex的核心价值不只是简单拼接GNN与LLM,而是提出了图文融合单元这一可复用的结构原语。该设计通过软提示把结构上下文注入语言模型,再通过融合模块把语义线索回流至GNN,形成双向闭环的迭代优化过程。作者认为,这一机制有助于缩小语义—结构鸿沟,提升跨模态互信息,并产生更加稳健、一致的节点嵌入。实验部分已经验证,这种双向交互不仅改善节点分类性能,也增强了链路预测等任务的迁移效果。
论文同时指出若干局限:随着融合单元数量、图规模和文本长度增加,计算开销仍可能上升;链路预测中负样本目前采用随机采样;方法当前主要面向静态同构图;在极端文本稀疏或噪声很大的场景下仍有进一步提升空间。未来研究可考虑更高效的融合模块、稀疏注意力、语义感知负采样,以及向异构图和动态图扩展。

研究结论部分可译为:
本文提出了BiGTex,一种通过深度双向交互结合图神经网络与大语言模型优势的混合架构。通过将软结构提示注入预训练语言模型输入,并利用融合机制将文本线索传播回图神经网络,该模型能够学习到丰富且与任务相关的节点表示。BiGTex的关键贡献不仅在于联合GNN与LLM,更在于提出了图文融合单元这一可复用的架构基元。该单元统一了软提示机制与跨模态融合机制,使BiGTex能够捕获顺序式或松散耦合策略难以实现的涌现性交互。这种模块化设计使BiGTex能够跨任务、跨骨干网络泛化,为文本属性图的基础模型式框架迈出一步。多种TAG数据集上的实验结果表明,BiGTex不仅优于传统GNN和现有LLM增强型基线,而且即使仅在节点监督下训练,其生成的嵌入也能良好迁移至链路预测等其他任务。消融分析进一步证实了结构提示与参数高效微调的互补作用。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号