《Current Issues in Molecular Biology》:FuDiCo: Gene Fusion-Initiated Path Propagation for Disease Comorbidity Prediction
编辑推荐:
疾病共病——即同一个体中两种或两种以上疾病的共同发生——由于其与不良临床结局及治疗复杂性增加相关,已受到越来越多关注。近年来,基于子图的疾病共病预测方法通常将疾病模块建模为蛋白质—蛋白质相互作用网络(protein–protein interaction, P
疾病共病——即同一个体中两种或两种以上疾病的共同发生——由于其与不良临床结局及治疗复杂性增加相关,已受到越来越多关注。近年来,基于子图的疾病共病预测方法通常将疾病模块建模为蛋白质—蛋白质相互作用网络(protein–protein interaction, PPI)中由疾病相关基因诱导形成的子图,并从子图拓扑中学习疾病表征。然而,这类方法受限于疾病—基因注释的不完整性,从而可能掩盖疾病之间重要的分子关联。因此,疾病共病还可能受到已注释疾病基因之外的分子事件影响,例如已被认为是疾病机制重要贡献因素的基因融合事件。基于基因融合在疾病发生发展中的作用,研究人员提出了用于疾病共病预测的基因融合启动路径传播框架FuDiCo(Gene Fusion-Initiated Path Propagation for Disease Comorbidity Prediction)。该框架通过PPI网络上的影响传播对共病进行建模。FuDiCo将融合相关基因表示为局部扰动源,并学习其影响如何沿相互作用路径向疾病子图传播,从而捕获连接相关疾病并促成其共病的传播模式。基准疾病共病数据集上的实验表明,FuDiCo优于当前最先进方法,并取得了统计学显著的性能提升。这些结果揭示了基因融合事件对于理解疾病关系的重要性。
该论文发表于《Current Issues in Molecular Biology》,围绕疾病共病预测中“如何突破既有疾病—基因注释不完整所带来的表示瓶颈”这一核心问题展开。疾病共病是临床医学与网络医学(network medicine,以分子相互作用网络解释疾病关系的研究范式)中的重要议题。传统研究往往通过共享致病基因识别疾病关联,但单纯遗传重叠难以充分解释复杂疾病之间的系统性联系,因为疾病表型通常并非来源于单一基因异常,而是多种病理生物学过程在复杂分子相互作用网络中的联合作用。基于这一认识,已有方法将疾病表示为蛋白质—蛋白质相互作用网络中的疾病模块,并进一步利用网络接近性、低维嵌入或子图深度学习方法来预测疾病共病。然而,现有方法无论是关注全局网络距离,还是关注疾病子图内部碎片化连通成分的拓扑结构,本质上都依赖于“已注释”的疾病相关基因集合。当疾病—基因注释本身不完整时,真实存在的分子联系便可能无法被观察和建模,这也成为当前共病预测的关键限制。
研究人员据此提出,有必要把研究视角从静态的疾病相关基因集合,拓展到能够引发网络级扰动的分子事件。论文选择基因融合(gene fusion)作为切入点。基因融合是原本独立的两个基因序列并置后形成单一转录单元的分子事件,可产生嵌合基因或嵌合转录本;在开放阅读框(open reading frame, ORF)保留时,还可能进一步翻译为嵌合蛋白。此类事件不仅会造成功能获得性或功能缺失性改变,还可能重塑蛋白互作关系并扰动PPI网络。因此,研究人员认为,若把融合相关基因视为局部扰动源,并追踪这种扰动如何沿PPI网络向疾病子图传播,就有可能从疾病相关基因之外捕捉到更深层的网络分子联系,从而改进疾病共病预测。
为实现这一目标,研究人员构建了FuDiCo框架。该方法以PPI网络为底层分子相互作用骨架,将每种疾病表示为由其相关基因在PPI网络中诱导形成的疾病子图。考虑到疾病相关基因常常并不形成单一连通区域,研究人员进一步把疾病子图拆分为多个连通成分,并以基因融合事件涉及的基因为影响传播起点。FuDiCo的核心不是直接学习疾病子图的静态拓扑,而是学习“融合相关基因—疾病连通成分”之间的路径传播模式。研究人员首先通过扩散可达性(diffusion-based reachability)量化融合相关基因到疾病成分节点的影响传递强度,再在不同路径长度下进行融合到成分的路径采样,以兼顾成分节点覆盖性与高可达性路径强化。随后,模型对每条采样路径上的各个位置计算位置影响分数,并通过融合影响感知门控循环单元(gated recurrent unit, GRU)对路径进行序列编码。该编码器的更新门、重置门及候选状态计算均显式引入传播影响强度,使模型能够优先保留具有更强生物学意义的传播片段。最终,各路径嵌入被聚合为成分表示,再进一步聚合为疾病子图表示,用于疾病对的共病概率预测。
就主要技术方法而言,研究人员整合了4类关键数据与方法:其一,采用包含13,460个蛋白编码基因和141,296条相互作用的PPI网络作为基础图结构;其二,使用299种疾病及3173个相关基因构建疾病子图,并基于Medicare中3000万65岁及以上个体的疾病史数据,通过相对风险(relative risk, RR)定义共病标签;其三,利用FusionGDB 2.0整合的融合基因数据,经筛选后得到18,360对融合基因对与9247个基因;其四,采用ESM-2蛋白语言模型(protein language model)预训练基因嵌入,并结合扩散可达性计算、路径采样、融合影响感知GRU编码、多层感知机(multilayer perceptron, MLP)分类和二元交叉熵损失进行端到端训练。
在结果部分,论文首先给出了“3.1. Performance on Disease Comorbidity Prediction”。这一部分通过10次独立重复实验,从受试者工作特征曲线下面积(area under the receiver operating characteristic curve, AUROC)、准确率、F1值和平均精度(average precision, AP)四项指标评估FuDiCo性能。结果显示,FuDiCo在四项指标上都表现出稳定且较高的平均性能,AUROC达到0.9815 ± 0.0052,准确率为0.9728 ± 0.0046,F1值为0.9828 ± 0.0029,AP为0.9940 ± 0.0024,说明模型预测可靠且运行稳定。与DisSubFormer、FDS-CAP和BSE三种代表性先进方法相比,FuDiCo在所有指标上均取得提升,且这些提升具有统计学显著性。相较DisSubFormer,FuDiCo在AUROC、准确率、F1值和AP上分别提高1.16%、1.26%、0.73%和0.54%;相较FDS-CAP,分别提高5.68%、5.41%、3.19%和2.43%;相较BSE,分别提高6.76%、7.47%、4.11%和2.85%。这些结果表明,将基因融合启动的影响传播显式纳入模型,可以比单纯依赖疾病已知基因拓扑的方法更有效地表征疾病关系。
“3.2. Ablation Study”进一步验证了模型关键模块的贡献。研究人员将FuDiCo中的融合影响感知GRU替换为标准GRU,以检验显式引入影响分数是否真正提升了建模能力。消融结果显示,移除影响感知门控后,模型在四项评价指标上均出现统计学显著下降:AUROC下降1.67%,准确率下降1.88%,F1值下降1.12%,AUPRC下降0.54%。这一结果说明,路径编码阶段若不考虑传播影响强度,仅根据节点嵌入序列编码,会削弱模型对生物学相关传播模式的辨识能力。换言之,FuDiCo的性能优势并不仅来自路径采样本身,更来自对“哪些路径位置承载更强融合传播信号”的显式建模。
“3.3. Scalability and Computational Complexity”则讨论了模型的可扩展性与计算复杂度。研究人员指出,FuDiCo的计算代价主要来自两部分:其一是融合到成分路径的采样及影响传播估计,其二是利用融合影响感知GRU对传播路径进行顺序编码。由于候选简单路径数量会随着网络连通性和传播深度增加而迅速膨胀,FuDiCo通过限制最大路径长度L并设置每个成分在每条路径长度下的路径预算,控制内存与运行时间。同时,路径采样、扩散可达性和影响分数计算在训练前预处理完成,从而加速后续模型优化。实证结果显示,传播路径编码阶段在限定采样策略下保持可计算,且不同路径长度的开销符合预期:路径越长,顺序计算成本越高,但整体仍处于可管理范围。
在讨论部分,研究人员首先回应了路径长度限制的生物学合理性。分析显示,在299个疾病子图中,对23,302个疾病子图连通成分节点进行考察后发现,若不施加路径长度限制,所有节点都可由至少一个融合相关基因到达;而在设置路径长度上限L = 3后,99.86%的可达节点仍可在该范围内到达,仅0.14%需要更长路径。进一步在连通成分层面分析,13,232个连通成分中有13,199个在L = 3条件下仍至少保留一个可达节点,覆盖率达99.75%。未覆盖的33个成分都只是单节点成分。由此可见,具有生物学意义的融合启动影响传播主要集中于PPI网络中的短程相互作用区域,短路径约束在降低噪声和复杂度的同时,基本保留了绝大多数有意义的传播联系。
讨论部分还指出了方法的局限性。其一,仍有少量连通成分在短程传播约束下没有有效采样路径,这可能与现有PPI网络和融合基因数据覆盖不完全有关。对此,FuDiCo为无有效路径的成分设计了门控回退表示,以保留模型稳定性并确保所有疾病成分都被纳入。其二,当前使用的融合基因数据集缺乏生殖系(germline)与体细胞(somatic)融合等生物学类别标注,因此模型尚不能区分不同类别融合事件的作用模式。其三,数据集按疾病对而非疾病实体划分,尽管这是疾病关系预测研究中的常见策略,但疾病级划分会对模型泛化能力提出更严格检验。其四,负样本采样比例及RR阈值等设定可能影响性能评估,未来可进一步系统比较不同负采样策略与标签定义。
论文结论部分指出,本研究提出了FuDiCo这一新型疾病共病预测框架,其核心创新在于将基因融合事件、网络扩散与疾病子图有机整合,通过PPI网络中采样路径上的融合启动影响传播来学习疾病表示。与依赖已注释疾病基因拓扑或全局接近性的既有方法不同,FuDiCo利用融合影响感知GRU编码传播路径,从而学习到与疾病共病相关的底层传播模式。基准数据集实验表明,FuDiCo在疾病共病预测上取得了稳健且一致的先进性能,优于DisSubFormer、FDS-CAP和BSE等近期方法。更重要的是,这些结果提示,基因融合为通过分子相互作用网络研究疾病关系开辟了新的方向。未来若能进一步区分不同生物学类别的融合事件,可能有助于揭示更细粒度的影响传播模式,并推动基于网络的疾病共病建模研究。