基于Transformer的多模态信号整合在肾细胞癌生存风险建模中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Biomedical Signal Processing and Control》：Transformer-based multimodal signal integration for survival risk modeling in renal cell carcinoma

【字体：大中小】 时间：2026年06月18日 来源：Biomedical Signal Processing and Control 4.9

编辑推荐：

　　阿伦德哈蒂·阿尔贾里亚|斯韦塔·贾因印度中央邦博帕尔毛拉纳·阿扎德国立技术学院计算机科学系摘要由于分子变异、肿瘤形态以及患者特定临床因素之间复杂的相互作用，准确预测肾细胞癌患者的生存期仍面临挑战。尽管近期有多种多模态方法整合了基因组、影像学和临床数据，但大多数

　　阿伦德哈蒂·阿尔贾里亚|斯韦塔·贾因
印度中央邦博帕尔毛拉纳·阿扎德国立技术学院计算机科学系

摘要
由于分子变异、肿瘤形态以及患者特定临床因素之间复杂的相互作用，准确预测肾细胞癌患者的生存期仍面临挑战。尽管近期有多种多模态方法整合了基因组、影像学和临床数据，但大多数方法依赖隐式的特征融合，难以揭示不同数据类型对生存风险的贡献机制。本研究提出了一种具有交互意识的多模态生存分析框架，该框架在神经Cox比例风险模型中明确建模了各数据类型的贡献及其跨模态交互作用。通过预训练的自监督视觉变换器（DINO和iBOT）从CT图像中提取放射学特征，并利用变分自编码器进行降维处理及注意力机制实现特征聚合，最终将这些影像学嵌入与mRNA表达谱及临床变量通过模态专用编码器进行早期融合。

除具备良好的预测性能外，该框架还引入了两项互补的可解释性组件：模态影响敏感性可量化每种数据类型对患者特定风险的贡献程度，而跨模态交互指数则能捕捉不同数据类型之间的非加性关系，从而明确协同效应或抵消效应的机制。在多模态肾细胞癌数据集上的实验显示，该框架的C指数为0.730±0.063，校准性能良好（IBS=0.1237），且能够实现具有统计学意义的危险分层。研究结果表明，基因组特征在预后预测中起主导作用，而影像学特征则为表型分析提供了补充信息。总体而言，这项工作通过从以性能为核心的预测转向注重可解释性和交互作用的分析范式，提升了多模态生存分析的水平，既实现了精准的风险评估，也为理解多模态风险形成机制提供了具有临床价值的见解。

引言
肾细胞癌占所有肾脏肿瘤的90%以上，2022年全球新增病例超过43万例，死亡人数达18万例[1]。尽管靶向治疗和免疫疗法取得了进展，但由于遗传异质性高、组织学亚型多样以及早期往往无症状，患者的生存预后仍存在很大差异。这种不确定性给精准预后判断和个性化治疗方案制定带来了巨大挑战。传统的预后系统，如TNM分期、Fuhrman分级以及基本临床协变量，仅能提供有限的肿瘤行为信息，无法充分体现分子变异、放射学特征与患者个体特征之间的复杂关联[2]。为克服这一局限，多模态生存分析方法应运而生，这类方法通过整合基因组、影像学和临床数据来提升患者特定风险的评估精度。

然而，现有的大多数多模态框架仍采用隐式的特征融合或独立处理不同数据类型的方式，未能明确展示各类数据对生存风险的贡献机制。虽然这些方法可能在预测性能上有所提升，但难以揭示各数据类型的独特影响及其跨模态交互作用，因此关于不同生物医学信号如何共同影响生存结果的机制仍不十分清晰。为解决这些问题，我们提出了一种具有交互意识的多模态神经生存分析框架，该框架将CT影像特征、mRNA表达谱以及结构化临床变量整合到Cox比例风险模型中。首先通过预训练的自监督视觉变换器提取放射学特征，再借助变分自编码器进行压缩处理，并通过注意力机制实现特征聚合，最终将这些特征与基因组及临床特征通过模态专用投影相结合，共同用于生存风险预测。

该框架的最大优势在于其结构化的可解释性。它引入了两项互补的组件来分析多模态风险的形成机制：其一为模态影响敏感性，可用于量化每种数据类型对患者特定风险的贡献，从而识别出最具预测价值的特征；其二为跨模态交互指数，能够捕捉不同数据类型之间的非加性关系，明确影像学、基因组及临床特征组合后是产生协同效应还是相互抵消。这两项组件共同实现了对各数据类型贡献及交互作用的清晰描述。总体而言，这项工作通过将分析重点从以性能为核心的预测转向注重可解释性和交互作用的范式，推动了多模态生存分析的发展。在该统一框架下，通过明确建模各数据类型的贡献及其跨模态交互作用，该框架不仅实现了精准的生存期预测，还为理解不同生物医学数据如何共同影响患者风险提供了清晰的视角。

本研究的主要贡献如下：
• 具有交互意识的多模态生存分析建模：我们提出了一种结构化的多模态生存分析框架，该框架在神经Cox模型中同时考虑了各数据类型的独立贡献及其跨模态交互作用，突破了传统黑箱式融合方法的局限。
• 模态影响敏感性：我们设计了一种针对患者的模态归因方法，可量化遗传、影像学及临床数据对生存风险的相对贡献，从而实现可解释且个性化的预后分析。
• 跨模态交互指数：我们提出了一种新的公式，用于量化不同数据类型之间的非加性关联，能够识别出那些传统特征归因方法无法捕捉的协同效应或抵消效应。
• 可解释的放射组学整合：该框架将基于变换器的影像学特征与基因组及临床数据相结合，同时保持了良好的可解释性，从而实现精准的生存期预测，并让多模态风险的形成机制更加透明。
• 具有临床价值的多模态分析：除了具备良好的预测性能外，该方法还能揭示不同数据类型的主导作用及交互模式，为其在临床决策支持中的应用提供了依据。

生存分析是医学预测建模的核心内容，尤其在肿瘤学领域，人们通常通过事件发生时间来评估患者的特定风险。由于传统方法如Cox比例风险模型具有可解释性强和统计稳定性好的优点，因此被广泛使用，这类模型假设风险比在时间推移过程中保持恒定。然而，由于其线性建模方式，难以捕捉高维生物医学数据中复杂的非线性交互作用。为克服这一限制，人们提出了多种改进方法：多任务逻辑回归模型可用于处理非比例风险和时间依赖性效应；Nnet-survival模型则通过神经网络估算离散时间的风险函数，从而更灵活地模拟时间动态变化；最近，深度学习领域的DeepSurv模型则通过非线性特征学习，更好地处理高维数据中的复杂交互作用，与传统统计模型相比，这类方法在基因组相关应用中展现了更优异的预测性能。

随着各种异构生物医学数据的日益丰富，多模态学习已成为生存期预测的一种重要手段。为提升预后预测的准确性，近期研究致力于将影像学、基因组及临床数据整合到统一的分析框架中，充分利用不同数据类型之间的互补信息。例如，可通过基于变换器的架构和自监督学习算法从高维影像数据中提取有效的特征表示。近年来，多模态深度学习的进步进一步强调了整合异构生物医学数据对于优化预后预测的重要性。比如Pathomic Fusion研究展示了通过深度融合策略结合组织病理学特征与基因组特征在癌症预后预测中的有效性；类似地，整合放射学、基因组及临床数据的多模态生存分析框架也通过利用跨模态互补信息提升了预测性能[6]。与此同时，基于变换器的架构在医学影像领域也受到了广泛关注，因为它们能够捕捉长距离依赖关系，并从高维数据中学习出稳定的特征表示[7]。

为提升模型的可解释性并增强临床信任度，可解释人工智能技术，如特征归因方法和基于注意力的处理机制，在生存分析中越来越重要[8]。近期研究进一步强调了在医疗领域中可解释的多模态人工智能系统的意义，因为临床应用的成功离不开模型的透明度。人们已开始使用SHAP等工具对深度生存模型进行解释，这些方法有助于识别关键特征，提高对模型预测结果的信心。基于这些发展，相关研究大致可分为三类：（1）单模态生存预测模型；（2）多模态生存预测框架；（3）结合影像学与基因组数据、基于深度学习的预后预测方法。

• 基于影像学的单模态生存模型
早期的研究主要尝试仅利用影像学数据来预测生存结果。Mukherjee等人[10]证明了仅使用影像学数据预测肺癌患者的生存期是可行的，他们开发了一种浅层卷积神经网络模型，并使用Cox比例风险损失函数对其进行训练，该模型可直接应用于包含丰富预后信息的CT扫描图像。Wang等人[11]则提出了一种基于CNN自编码器的深度学习框架，用于预测高级别浆液性卵巢癌的复发风险，该模型将CT影像特征转换为潜在空间，并通过Cox损失函数进行训练，研究表明，仅依靠放射学数据，通过对CT特征的深度无监督编码，也能为复杂的妇科癌症提供预后信息。Wu等人[12]针对非小细胞肺癌患者设计了一种统一的生存预测模型，他们在模型中加入了CT扫描特征和结构化临床数据，并通过基于回归的均方误差损失函数优化模型，实践表明，融合影像学与表格数据确实能提升生存预测的准确性。Zhang等人[13]提出了一种基于深度学习的风险评估系统，该系统结合临床数据与CT影像信息来预测胃癌患者的生存期，其预测性能优于单一模态的分析方法。Zhong等人[14]则创建了一种基于CNN的模型，用于预测鼻咽癌T3-4N0-1M0期患者的生存期，他们在模型中使用磁共振成像数据及基本临床特征进行初始构建，随后通过Cox生存损失函数对模型进行优化，该网络能够通过结合高分辨率MRI图像与描述性参数，识别出与解剖结构相关的生存信号以及个体特有的生存特征。Chaddad等人[15]则采用传统的放射组学分析流程来评估肺癌风险，他们手动从CT扫描中提取特定的放射组学特征，并将这些特征与肿瘤分期、患者体能状态等健康信息相结合，最后使用随机森林分类器将患者划分为不同的生存风险类别，而非依赖深度学习技术。

• 肾细胞癌及其他癌症的多模态模型
在肾细胞癌的研究中，已有多项研究试图结合临床数据、放射学数据，有时还包括组织病理学数据来构建生存预测模型。Pignot等人[16]通过Kaplan–Meier曲线和Cox回归分析，纳入年龄、性别、肿瘤大小及TNM分期等医学因素，来分析患者的生存情况。Arrontes等人[17]则在标准生存模型中加入了并发症指数、Fuhrman核分级以及人口统计变量。Gao等人[18]采用放射组学方法从CT扫描中提取纹理特征，以此分析肿瘤的异质性并预测肾细胞癌患者的总生存期。Nazari等人[19]则基于定量放射组学特征开发了一种随机森林分类器，用于评估ccRCC患者的5年死亡风险。Jiang等人[20]则使用CT图像并通过随机森林模型将患者分为SSIGN风险类别。

• 结合基因组数据的深度多模态学习
近年来，生存分析领域的进展越来越倾向于采用深度多模态学习技术，即将多种类型的数据整合到统一的预测框架中。Ning等人[6]的研究展示了如何整合基因表达、影像学数据及临床信息，用于预测透明细胞肾细胞癌患者的生存期。Schulz等人[21]则提出了一种混合模型，该模型结合了影像学、组织病理学及转录组特征，以便更准确地评估患者的风险。然而，尽管取得了这些进展，现有的大多数多模态生存模型仍然主要以提升预测性能为目标，将多模态融合视为一种黑箱过程。虽然它们能够有效利用不同数据类型之间的互补信息，但难以揭示各类数据对生存风险形成的具体贡献机制，也无法说明不同数据类型之间的交互作用如何影响模型预测结果。尤其是，对各数据类型独立贡献的系统性分析以及结构化的跨模态交互效应研究仍相当缺乏。正是这一缺陷促使人们开发出更具可解释性的多模态生存分析框架，这类框架不再仅仅关注预测精度，而是试图深入理解风险评估背后的机制。具体而言，现有生存分析框架中，对跨模态交互作用的详细建模以及对各数据类型独立贡献的精准测量仍大多未被充分探索。由于缺乏对风险形成因素的透明解释，多模态模型的可解释性和临床实用性都受到限制。

这些不足凸显出，除了提升预测性能之外，还需要开发能够提供清晰、易于理解的多模态风险形成机制的生存分析模型。本研究正是通过将结构化的可解释性框架融入多模态神经生存分析模型，填补了这一空白。其中，跨模态交互指数用于记录不同数据类型之间的非加性关联，而模态影响敏感性则用于量化每种数据类型在患者层面的具体贡献。所提出的方法将多模态生存分析从以性能为核心的评估方式，转向了对风险生成机制更透明、更具临床意义的理解，因为它明确建模了各数据类型的贡献及其交互效应。近年来，多模态深度学习的进步为整合异构生物医学数据提供了更多先进的策略。例如，对融合机制的比较分析表明，结合早期与晚期融合策略的混合融合方法能够提升癌症生存预测中的跨模态交互建模效果[22]。基于专家混合（MoE）的架构通过引入对特定模态表示的自适应加权机制，实现了为生存预测任务动态选择有用模态的功能，进一步拓展了这一理念[23]。由于具备建模长距离依赖关系以及捕捉不同模态间复杂交互的能力，基于Transformer的多模态架构受到了广泛关注。例如，有研究利用Transformer驱动的框架来同时完成分割任务和生存预测任务[24]。此外，多模态表示学习方法也展现出在泛癌种生存建模中提升预测性能的潜力[25]。与此同时，可解释人工智能（XAI）领域的最新研究强调了在临床场景中可解释性的重要性，相关方法侧重于生存分析中的风险分层及透明决策制定[26]。虽然这些方法提升了模型对异构数据的处理灵活性与适应性，但往往需要复杂的系统以及大规模的信息资源。相比之下，本文提出的方法采用了结构化且计算效率较高的早期融合策略，同时还对模态间的影响与交互进行了明确分析，从而能够在规模适中的临床数据集中实现稳定且可解释的多模态生存建模。

方法
所提出的框架整合了包括CT成像、基因组特征及临床变量在内的多种异构生物医学数据，用于肾细胞癌的生存风险预测。该架构分为两个连续阶段：
•第一阶段：从CT扫描中提取简洁的患者级成像表示
•第二阶段：通过整合成像、基因组及临床特征来实现多模态生存建模
这样的设计使得首先能够针对不同模态学习特定特征，随后再对这些特征进行联合分析。

数据集
本研究使用的数据来自可通过基因组数据共享平台（GDC）门户（https://portal.gdc.cancer.gov）获取的癌症基因组图谱肾透明细胞癌队列（TCGA-KIRC）。在对各模态数据进行患者级对齐后，最终有235名患者被纳入多模态生存建模分析。纳入标准要求必须完整拥有由CT扫描生成的成像嵌入数据、mRNA基因表达谱、结构化的临床变量等信息。

数据集与交叉验证设置
实验是在包含235名患者的TCGA-KIRC肾透明细胞癌队列上进行的，这些患者均拥有匹配的CT成像嵌入数据、mRNA表达数据以及结构化的临床变量。纳入标准要求三种模态的数据都需完整，同时还需具备可靠的总体生存时间及事件信息。为确保性能评估的稳健性并降低方差，研究采用了基于事件指标的5折分层交叉验证方法。在每一折中，

讨论
实验结果表明，整合放射学、基因组学及临床数据能够实现可靠且具有临床意义的肾细胞癌生存预测。尽管其预测性能与现有的多模态生存模型相当，但本研究的主要贡献在于提供了一种结构化且易于理解的多模态风险形成机制。与传统依赖隐式特征融合的方法不同，本文提出的方法对特征融合过程进行了明确建模。

结论
本研究提出了一种用于肾细胞癌的多模态生存建模框架，该框架将CT成像特征、转录组数据以及结构化临床变量整合到神经Cox回归架构中。该框架能够在保持各模态可解释性的同时，实现对多种异构生物医学信号的联合建模。该方法的稳定区分性能（平均C指数：0.730 ±0.063）表明，它能够实现稳健的患者级风险估算。

CRediT作者贡献说明
阿伦达蒂·阿尔贾里亚：负责原文撰写、方法设计、数据整理及概念构建工作；斯韦塔·贾因：负责监督指导工作。

伦理声明
本研究使用的是公开获取的、已去标识化的TCGA和TCIA数据集，无需获得知情同意或额外的伦理审批。所有研究技术均符合相关伦理标准，同时也充分保障了每位受试者的隐私权。

利益冲突声明
作者声明不存在任何可能影响本文研究结果的已知财务利益或个人关系。

致谢
作者们未为此项研究获得任何外部资金支持。

联系信箱：

粤ICP备09063491号

热点排行