《Breast Cancer》:Identifying breast cancer subtypes and exploring spatial expression patterns of the key subtype-specific gene based on pathological images, single-cell sequencing, and spatial transcriptomic data
编辑推荐:
背景 乳腺癌(BRCA)是一种异质性疾病。准确的预后评估与分子分型对于BRCA个体化治疗至关重要。本研究旨在基于病理图像提取特征识别BRCA预后相关亚型,并结合空间转录组(ST)与单细胞RNA测序(scRNA-seq)探讨其潜在分子与细胞机制。
方法 研究人
背景 乳腺癌(BRCA)是一种异质性疾病。准确的预后评估与分子分型对于BRCA个体化治疗至关重要。本研究旨在基于病理图像提取特征识别BRCA预后相关亚型,并结合空间转录组(ST)与单细胞RNA测序(scRNA-seq)探讨其潜在分子与细胞机制。
方法 研究人员从TCGA-BRCA数据集获取苏木精-伊红(H&E)染色图像,并采用OTSU算法处理。利用PyRadiomics提取病理特征,并通过Cox回归与机器学习进行特征筛选。随后采用一致性聚类(consensus clustering)定义亚型,并开展差异表达基因分析。研究人员进一步结合加权基因共表达网络分析(WGCNA)与Lasso回归分析筛选关键基因。通过整合ST与scRNA-seq数据集,分析关键基因的空间分布特征及其细胞间相互作用。
结果 在提取的1,406个病理特征中,共鉴定出25个核心特征,并据此定义了两种BRCA亚型。C1亚型与疾病进展及较差预后相关。ESRP1被鉴定为C1亚型中上调的关键基因。ST分析显示,ESRP1在肿瘤病灶区域高表达,并与上皮细胞和成纤维细胞共定位。细胞—细胞通讯分析表明,成纤维细胞在TGF-β信号网络中充当中心枢纽,尤其位于ESRP1富集区域。
结论 本研究鉴定出源自病理特征的BRCA预后亚型,可作为现有分子分型体系的补充。核心基因ESRP1在BRCA组织中呈现 distinct 的空间表达模式,主要定位于富含成纤维细胞的肿瘤核心区域。这些发现为理解BRCA异质性及潜在治疗靶点提供了探索性见解。
该文发表于《Breast Cancer》,围绕乳腺癌(BRCA)的组织学异质性、分子异质性与肿瘤微环境(TME)重塑展开研究。乳腺癌长期以来主要依赖雌激素受体(ER)、孕激素受体(PR)及人表皮生长因子受体2(HER2)等指标进行分型,并据此划分为luminal A-like、luminal B-like、HER2
+和三阴性乳腺癌(TNBC)等类别。这一体系具有临床实用性,但不同患者在治疗反应和预后上仍存在显著差异,提示传统分型尚不足以完全覆盖乳腺癌复杂的生物学异质性。因此,如何从常规病理切片中挖掘更深层的形态学信息,并进一步连接到分子改变、细胞生态位及空间微环境特征,成为优化预后评估和个体化治疗的重要课题。
在这一背景下,研究人员尝试将数字病理学、机器学习、转录组学、单细胞RNA测序(scRNA-seq,单细胞分辨率转录分析)与空间转录组(ST,保留组织空间位置信息的转录组分析)结合,构建一种基于病理图像特征的乳腺癌新型预后分层框架。研究的核心目的有两点:其一,基于H&E病理图像提取的定量特征识别具有预后意义的乳腺癌亚型;其二,在此基础上进一步追踪关键亚型特异性基因的表达位置、相关细胞成分以及细胞通讯网络,从而解释该亚型可能具有侵袭性和不良临床结局的潜在机制。研究结果表明,研究人员定义了两个具有显著预后差异的亚型,其中C1亚型与晚期分期、较差总生存(OS)以及免疫抑制性微环境相关;ESRP1被鉴定为关键基因,在C1中高表达,并主要集中于肿瘤核心病灶区域,且与上皮细胞和成纤维细胞空间共定位。这一发现提示,基于病理图像建立的亚型不仅能够补充既有分子分类,还有助于将组织学形态特征与空间分子机制对应起来,对乳腺癌异质性研究和潜在治疗靶点探索具有重要意义。
研究人员使用的主要技术方法可概括如下:首先,从TCGA-BRCA队列纳入1,030例同时具有临床资料和H&E全视野切片(WSI)的样本,采用OTSU算法进行组织区域分割,利用PyRadiomics提取并标准化病理组学特征;随后通过单因素Cox回归、AdaBoost、XGBoost和随机森林(RF)筛选核心特征,并以一致性聚类定义亚型。其后结合TCGA转录组数据进行差异表达分析、京都基因与基因组百科全书(KEGG)通路富集分析、CIBERSORT免疫浸润分析、加权基因共表达网络分析(WGCNA)及Lasso Cox回归筛选关键基因。最后整合GSE190811空间转录组数据与GSE161529单细胞转录组数据,应用Seurat、RCTD和CellChat分析关键基因的空间表达、细胞定位及TGF-β介导的细胞通讯网络。
在结果部分,论文首先通过“Identification of potential BRCA subtypes based on key pathological features”显示,研究人员从1,406个经过质量控制后的病理特征出发,经单因素Cox回归筛得104个与预后显著相关的特征,再由AdaBoost、XGBoost和RF三种机器学习算法分别计算特征重要性,取三者前50位特征的交集,最终得到25个稳健的核心病理特征。基于这25个特征实施一致性聚类后,在k=2时获得最佳稳定性,因此将TCGA-BRCA样本划分为C1和C2两个亚型。进一步比较发现,这25个特征在两亚型间呈现显著差异表达,说明病理图像所反映的形态学异质性足以支撑新的预后分层。
在“C1 subtype is associated with poor prognosis in BRCA patients”中,研究人员将新亚型与临床结局进行系统关联。结果显示,C1亚型中III期和IV期患者比例高于C2,提示其与疾病进展相关。Kaplan-Meier生存分析表明,C2患者总生存显著优于C1。进一步在训练集和验证集中重复分析后,这一预后差异仍保持显著,说明该分型具有较好的稳定性。分层分析进一步显示,在ER阳性、PR阴性、HER2阴性、I期和II期、浸润性导管癌(IDC)以及年龄<60岁等临床亚组中,C2仍普遍表现出更优预后。研究人员还考察了C1/C2与传统分子分型的关系,发现二者分布于luminal A-like、luminal B-like、HER2
+和TNBC各亚类中,未在某一传统分型中形成显著富集,且在各分子分型内部,C1总体上仍呈现更差生存趋势。这说明该病理来源分型与传统ER/PR/HER2分类体系大体独立,具有补充性而非替代性。
在“Identified subtype classification is an independent prognostic factor for BRCA patients”部分,研究人员通过单因素和多因素Cox回归进一步验证该新分型的独立预后价值。分析结果表明,年龄、肿瘤分期以及C1/C2分型均与总生存显著相关;在纳入多变量模型后,该亚型仍然保持统计学显著性,提示其并非仅仅反映年龄或分期差异,而是可作为独立的预后因素。这为病理图像特征用于临床风险分层提供了依据。
在“Functional characterization of DEGs associated with BRCA subtypes and their correlation with immune cell infiltration”中,研究人员转向分子层面的解释。C1与C2之间共鉴定出746个差异表达基因(DEGs),其中C1相较C2上调317个、下调429个。考虑到C1预后较差,研究人员重点分析其上调基因的功能富集。KEGG结果显示,这些基因显著富集于细胞因子-受体相互作用、谷胱甘肽(GSH)代谢、色氨酸代谢等通路,提示C1亚型可能伴随代谢重编程及肿瘤免疫逃逸。进一步利用CIBERSORT评估肿瘤免疫微环境(TIME)后发现,与C2相比,C1中B细胞、滤泡辅助性T细胞和静息树突状细胞浸润较低,而M2型巨噬细胞和中性粒细胞浸润显著升高。该结果支持C1具有更强免疫抑制属性,从而可能促进不良结局。
在“ESRP1 is a key DEG in the potential BRCA subtype”部分,研究人员进一步筛选亚型关键驱动基因。通过WGCNA构建14个共表达模块后,发现purple模块与C1呈最强正相关,包含145个基因。将其与前述746个DEGs取交集后得到18个候选关键DEGs,再经Lasso Cox回归缩减为7个基因:OAF、DCAF13、GSN、ESRP1、MYLK、CLEC14A和DUSP1。差异表达分析表明,DCAF13和ESRP1在肿瘤组织中高于正常组织,且在C1中高于C2。结合既往生物学背景与本研究前序结果,研究人员最终选定ESRP1作为后续空间分析的代表性关键基因。文中同时指出,ESRP1在不同传统分子分型中表达存在差异,在HER2
+和TNBC中较高,但即便在分子亚型内部,尤其是luminal A-like中,C1较C2仍显示更高ESRP1表达,进一步说明其与C1的关联并非传统受体状态所致。
在“ESRP1 is highly expressed in the BRCA core lesion region and closely associated with the spatial distribution of epithelial and fibroblast cells”中,研究人员使用4例ST样本考察ESRP1的组织空间表达。以样本1为例,ESRP1在肿瘤病灶区域显著高表达。通过整合GSE161529的scRNA-seq数据并应用RCTD进行细胞类型注释,研究人员在ST切片中识别出8类主要细胞,包括上皮细胞、CD8
+ T细胞、肌上皮细胞、成纤维细胞、内皮细胞、中性粒细胞、B细胞和M2巨噬细胞。空间映射显示,ESRP1富集区域主要由上皮细胞和成纤维细胞构成,且二者在肿瘤病灶区域密集分布;相较之下,CD8
+ T细胞更多位于肿瘤边缘。其余3个ST样本中亦观察到相同模式,即ESRP1持续高表达于肿瘤核心区,并与上皮细胞及成纤维细胞富集区域高度重叠。这表明ESRP1并非均匀表达于整个肿瘤组织,而是具有明确的空间偏向性。
在“Fibroblasts play a central role in TGF-β-mediated intercellular communication and are closely associated with ESRP1-enriched regions in BRCA”部分,研究人员基于ST样本展开细胞通讯分析。结果显示,成纤维细胞在整体网络中具有最高的相互作用数量和强度,是肿瘤微环境中的中心枢纽。在TGF-β信号通路特异分析中,成纤维细胞既是重要信号来源,又是关键受体,可与上皮细胞、中性粒细胞、肌上皮细胞和B细胞等形成广泛双向通讯网络。空间通讯图进一步显示,肿瘤核心区域的成纤维细胞与多种细胞类型保持紧密空间接触,且这些高密度互作区域与ESRP1高表达区域显著重合。其他3个ST样本也重复观察到成纤维细胞的中心地位。基于这些结果,论文强调成纤维细胞主导的TGF-β信号网络可能参与ESRP1相关肿瘤进展和微环境重塑。
讨论部分系统整合了上述发现。研究人员指出,本研究区别于传统基于转录组或基因突变的乳腺癌分型方法,而是从H&E病理图像出发,经机器学习挖掘可解释的定量形态学特征,并进一步关联到分子与空间层面的机制。C1亚型表现出较差总生存、较晚临床分期、代谢相关通路富集及免疫抑制性浸润特征,提示其具有更强侵袭性。ESRP1作为C1中的关键基因,不仅在肿瘤组织和C1亚型中高表达,还定位于富含上皮细胞和成纤维细胞的肿瘤核心区,与成纤维细胞主导的TGF-β通讯轴空间耦联。研究由此提出,ESRP1可能与肿瘤间质互作、上皮-间质转化(EMT)及微环境重塑密切相关。与此同时,论文也明确其局限性:该分型仅在TCGA-BRCA内部进行训练和验证,未纳入治疗信息;ST与scRNA-seq分析揭示的是空间关联和潜在通讯,尚缺乏体内外实验直接证据;部分TCGA样本缺失ER、PR或HER2注释,可能带来选择偏倚。因此,当前结论应理解为探索性发现。
研究结论可译为:总之,本研究基于病理图像特征鉴定出两种具有不同预后结局的乳腺癌亚型,并结合转录组、单细胞和空间转录组数据进行了验证。其中,C1亚型表现出高ESRP1表达、成纤维细胞富集以及以TGF-β为中心的细胞间通讯特征,提示其可能具有更强侵袭性表型和更差临床预后。重要的是,C1/C2分类与传统基于ER/PR/HER2的分子分型大体独立,提示其有望作为补充性预后工具。ESRP1被鉴定为关键调控因子,可能通过介导EMT和间质重塑促进肿瘤进展,但相关机制仍需实验验证。总体而言,这些结果为理解乳腺癌异质性提供了探索性见解,并为亚型特异性研究指出了潜在线索。