《Modern Pathology》:When Seeing Is Not Believing: Understanding UMAP and t-SNE in Methylation-Based Tumor Classification
编辑推荐:
DNA甲基化分型已成为病理各亚专科肿瘤分类的重要工具。为直观展示样本间关联,多项研究采用降维技术,包括均匀流形近似与投影(Uniform Manifold Approximation and Projection, UMAP)与t分布随机邻域嵌入(t-Dist
DNA甲基化分型已成为病理各亚专科肿瘤分类的重要工具。为直观展示样本间关联,多项研究采用降维技术,包括均匀流形近似与投影(Uniform Manifold Approximation and Projection, UMAP)与t分布随机邻域嵌入(t-Distributed Stochastic Neighbor Embedding, t-SNE)。此类技术虽可生成直观呈现复杂分子数据的可视化图谱,但其本质为可视化工具而非聚类或分类算法,图谱形态高度依赖样本选择、数据预处理及参数设置。本技术综述明确了甲基化肿瘤研究中可视化与分类方法的解读及报告要点,提出一套涵盖全流程透明化的报告规范:需完整披露预处理流程与算法参数,将可视化结果与定量聚类或分类分析相结合,并以独立临床、组织学及分子数据验证所观察到的分组。配套在线交互笔记本支持研究人员基于公共肿瘤甲基化数据集调整不同设置,实时观察其对UMAP与t-SNE结果的影响。本文聚焦于诊断场景中甲基化可视化图谱与分类器输出的解读原则,不展开 profiling 方法、分类工具或聚类算法的系统性比较。掌握上述原理将有助于保障纳入甲基化肿瘤分类的病理学研究的可重复性与科学严谨性。
引言
DNA甲基化分型已成为诊断病理学中的重要临床辅助手段,其基于全基因组分子模式实现更客观的肿瘤分类,并在部分病例中可明确其他方法无法确诊的疑难病例。早期中枢神经系统肿瘤研究已证实,甲基化分类可在常规实践中显著改变诊断结果,后续研究进一步将该策略拓展至软组织肿瘤及原发灶不明癌的起源部位检测。单份甲基化检测可覆盖全基因组数十万个CpG位点,为每个病例生成复杂的数值谱。为探索病例间关联,研究人员依赖降维方法将高维数据压缩至低维空间以便可视化。常用技术包括主成分分析(Principal Component Analysis, PCA)——用于总结样本间最大变异来源,以及非线性方法如t-SNE与UMAP——通过迭代算法在低维空间中尽可能保留原始数据中的样本局部邻近关系。此类可视化工具可有效揭示相关肿瘤群组、组织学亚型间的连续梯度,或提示需进一步验证的意外离群值。但需明确的是,UMAP与t-SNE仅为可视化方法,并非正式的聚类或分类算法,图谱中的样本分组形态可随数据预处理、参数设置甚至运行间随机差异发生显著变化。随着这些方法在诊断文献与临床研究中的普及,误读风险持续升高。本文面向病理学场景,系统梳理UMAP、t-SNE及相关方法的实用解读要点,阐述可视化结果与分类器输出的联合解读策略,讨论新兴平台与技术对甲基化数据获取与解读的潜在影响,并提出提升分析透明度与可重复性的建议。本文不提供甲基化检测方法、分类策略或聚类算法的全面比较,而是聚焦于诊断场景下甲基化数据可视化与解读的通用原则,旨在推动计算工具的透明与严谨应用,使其达到分子病理学中任何检测技术均应遵循的标准。
降维的目的
DNA甲基化检测可获取每份病例数百个CpG位点的平均甲基化水平,理论上每个病例可视为由数十万个数值坐标定义的高维空间点,人类难以直接理解此类高维空间,且当检测指标数量远超样本量时,分类模型易出现过度拟合。因此需借助统计技术简化数据,同时保留最具信息量的变异。降维指将大规模复杂数据集转换为更少维度的技术,同时尽可能维持样本间关联。实际操作中,通常将数据投影至二维用于绘图,或投影至数十维用于定量分析。可用三维地球向二维地图的投影作类比:墨卡托投影可保留局部形状(国家轮廓可识别),但必然扭曲全局距离(格陵兰岛在图上大于非洲)。同理,降维将数千个甲基化测量值压缩为平面图谱,虽可凸显主导模式、分离信号与噪声,但必然伴随信息损失——没有任何二维表示能完美还原完整数据集的所有关联。
常用算法:PCA、t-SNE与UMAP
降维方法的核心差异在于对相似度的定义及优先保留的关联类型。DNA甲基化分析中最常用的三类方法为主成分分析(PCA)、t分布随机邻域嵌入(t-SNE)与均匀流形近似与投影(UMAP)。PCA为线性方法,可识别数据变异最大的变量(称为主成分)。每个主成分为原始CpG位点的加权组合,第一主成分捕获整体最大变异,后续主成分依次捕获递减的变异。二维或三维PCA图可揭示大类别诊断趋势、肿瘤亚型相关梯度及批次效应。PCA速度快且具有确定性,相同输入可产生完全一致的结果,但仅能捕捉线性关系,可能遗漏重要的非线性模式。t-SNE与UMAP旨在解决该局限,二者均为非线性方法,聚焦于保留局部邻域,使原始高维空间中相似的病例在低维嵌入中位置相近。尽管目标一致,二者数学逻辑不同:t-SNE将样本间距离转换为代表任意两点为邻居的概率,再在低维空间中排列样本以匹配这些概率;UMAP则构建加权图,每个样本连接至其最近邻,随后在低维图中优化布局以保留该高维网络的结构与连接。两类算法均面临相似的权衡,依赖可调参数控制局部细节与全局结构的平衡,例如t-SNE的困惑度(perplexity)与UMAP的近邻数(n_neighbors)。调整这些参数可决定图谱是凸显宽泛的诊断大类还是精细的亚组。因此,两种方法图谱中的全局距离均不能解释为生物学分离程度的准确度量。与PCA不同,t-SNE与UMAP本质上是随机算法,从随机起始点开始迭代调整布局以保留点间局部关系,因此相同输入重复运行可产生朝向、样本相对位置均不同的图谱,某次运行中的明显分组可能在另一次运行中合并或偏移。为保障可重复性,发表物与共享代码必须完整报告所有预处理步骤与算法参数,包括随机种子。缺乏此类透明度时,视觉分组极易被误判为可靠的生物学发现,实则仅反映算法初始化与参数选择的差异。
语境、伪影与可重复性
除算法选择外,数据集构成对降维、聚类与分类结果有强烈影响。诊断类别的数量、多样性与均衡性会改变UMAP或t-SNE空间中局部邻域的形成方式与区分度。因此,新描述的肿瘤的分组方式会随分析中纳入的其他诊断类别而变化,这类偏移反映的是分析语境差异,而非真实的生物学关联,提示解读选定肿瘤子集生成的图谱时需格外谨慎。除参考集构成外,芯片版本、试剂批号、扫描仪与处理实验室等技术因素均可显著影响甲基化测量结果,扭曲下游分析(包括降维、聚类与分类)。在可视化结果中,批次效应可能主导UMAP或t-SNE的布局,产生的分组反映的是实验流程而非生物学亚型。ComBat、noob、Harman等计算校正方法可减少此类伪影,但这些方法假设批次效应与生物学无关。当批次与诊断存在混淆(例如某实体所有病例均在单一机构处理,而参考病例来自其他机构,或某一芯片仅用于某一诊断组)时,校正方法无法可靠分离技术变异与生物学信号。实验设计是最有效的保障措施:尽可能将样本分散至不同批次处理,避免批次身份与诊断混淆;每个批次纳入常见参考肿瘤类型,以便检测技术偏移;在独立队列中复现发现,且独立队列需在另一机构或另一时间点处理。作者需报告是否进行批次校正及批次定义方式,未识别的技术变异仍是甲基化分析中假结构的主要来源。肿瘤纯度是另一项影响分类器输出与可视化的前分析变量。低肿瘤纯度可能源于取样包含邻近正常组织,也可能反映肿瘤本身的生物学特征(如炎性肌纤维母细胞瘤与骨巨细胞瘤中肿瘤细胞占比天然较低)。多数分类器与验证研究推荐肿瘤含量最低阈值为50%至70%,最优阈值因肿瘤类型与分类器而异。重要的是,低肿瘤纯度更倾向于产生低于阈值的分类器评分,而非导致明确误分类,其作用是提示诊断不确定性而非掩盖不确定性。但在UMAP与t-SNE图谱中,低纯度样本可能无声地向正常组织漂移,无任何明确预警。每个实体用于聚类或分类的最小病例数取决于所用方法、参考队列构成及该实体的分子谱独特程度。现有分类器对每类甲基化的最低病例数要求为7至10例,并通过迭代重抽样验证稳定性。类似地,提议新的中枢神经系统肿瘤类型的共识建议要求队列包含超过10例经充分表征的病例,且需至少两项独立研究的支持。更通用的做法是采用定量聚类指标(如轮廓系数、一致性聚类、间隙统计量)评估观测分组是否稳定且分离良好。这些指标应用于数据的高维表示(如前若干主成分)时最可靠,不应直接应用于UMAP或t-SNE的二维坐标,因其无法可靠保留聚类算法依赖的距离与密度。UMAP与t-SNE本身无最小样本量要求,但小样本组更易出现视觉不稳定性,可随参数设置与随机种子分裂或合并。罕见实体的小队列还面临批次与诊断易混淆的额外挑战,难以判断表观分组反映的是生物学还是共享处理条件。定义新的诊断实体需要跨独立研究整合分子、组织学与临床证据,这远超单一计算方法可解决的范围。除实验因素外,计算可重复性依赖于透明度。由于软件版本或操作系统的细微差异即可改变t-SNE、UMAP等随机算法的输出,仅列出参数往往不足。最稳健的策略是共享完整的分析流程。公共代码仓库(如GitHub)可供他人核查具体逻辑,容器化软件(如Docker)可保存所有软件依赖的特定版本,构建可复现环境,使其他研究人员可精确复现分析,不受本地计算机配置影响。并非所有参数选择都需要生物学依据,许多设置(如随机种子的选择、探针采样的具体数量)在合理范围内基本是任意的,默认值通常表现良好。最关键的是透明度。本综述的方法部分列出了UMAP与t-SNE的常用报告参数(包括n_neighbors、min_dist、perplexity、learning_rate、metric与random_state)作为实用起点,但完整可重复性仍需按前述方式共享完整计算环境。然而,部分决策会引入系统性偏倚,必须避免:针对降维或聚类,研究人员不应基于待分析组间的差异甲基化筛选探针,这属于循环特征选择,会人为夸大类别间分离,制造虚假的生物学区分印象,破坏可视化的探索价值。
区分降维、聚类与分类
PCA、t-SNE与UMAP等降维技术可提供甲基化谱的可视化图谱,但不分配聚类或诊断标签。这些方法最适合作为探索模式与生成假设的辅助工具,而非定义稳定分组的依据。聚类方法在不使用诊断标签的前提下,基于分子谱相似性对病例分组。常用方法包括层次聚类(构建树状图,可在不同层级切割以定义分组)、k均值聚类(预设聚类数,最小化组内变异)及应用于近邻图的图社区检测(如Louvain与Leiden算法)。这些方法返回的是聚类标签而非诊断,所得分组需用定量指数(如轮廓系数)评估,并结合组织学、临床与其他分子发现进行解读。分类方法的目标是基于标注样本训练的模型预测新病例的诊断。例如在中枢神经系统肿瘤与肉瘤中,Epignostix(海德堡大学)、Methylscape(美国国立卫生研究院)与EpiDiP(巴塞尔大学)等甲基化分类器利用已知诊断的大规模参考队列,为新甲基化谱分配类别概率。这些工具编码的是从标注数据中学习到的决策边界,应以其内部交叉验证与独立测试集的性能,以及概率评分与阈值匹配临床需求的程度作为评判标准。UMAP与t-SNE可视化可伴随分类器结果展示,用于提供参考数据集的整体视觉概览,但样本在图谱中的位置绝不应被视为独立或可靠的诊断证据。分类器与可视化的一项关键区别在于:分类器可提供定量的、校准后的诊断置信度度量,而UMAP与t-SNE不具备这一特性。多数甲基化分类器生成的评分反映样本与每个参考类别的匹配强度。在以随机森林为基础的分类器中(如广泛使用的海德堡/Epignostix中枢神经系统肿瘤分类器与肉瘤分类器),数千棵决策树各自投票给一个类别,独立的校准模型随后将这些原始评分转换为更接近真实类别归属概率的数值。广泛采用的≥0.9阈值是在海德堡/Epignostix中枢神经系统肿瘤分类器的验证过程中确立的,该验证覆盖2801例肿瘤、91个甲基化类别。该阈值是通过受试者工作特征分析选定的,作为更严格与更宽松截断值之间的折中,在交叉验证中实现了0.90的灵敏度与0.938的特异度。校准评分同时依赖于参考队列以及分类器的设计与训练,包括算法选择(如随机森林、神经网络或朴素贝叶斯)、训练流程与校准方法本身。因此同一阈值在不同分类器中可能对应不同的性能特征,使用者应查阅其所用分类器的特定验证数据。共识建议强调,校准评分是连续谱,而非“匹配/不匹配”的二元结果。部分分类器对甲基化类别进行层级组织,将相关类别归入更宽泛的诊断家族。若样本未达到特定类别的置信阈值,仍可能在更宽泛家族层面获得较高的聚合评分,即便无法给出精确的类别分配,也可缩小鉴别诊断范围(例如虽类别评分低,但对低级别胶质神经元肿瘤家族的匹配置信度高)。针对中枢神经系统肿瘤,cIMPACT-NOW联盟已提供了详细的分类器输出解读指南及其与组织病理学诊断整合的建议。针对肉瘤与其他肿瘤类型的可比框架仍在发展中。UMAP或t-SNE图谱不存在类似的质控指标,没有任何评分可量化某一特定视觉布局是否代表真实的诊断分组,抑或是参数设置的产物。当样本未达到分类器置信阈值,却在UMAP或t-SNE上视觉归属于某一已知肿瘤类型时,这种不一致可能反映DNA质量差、肿瘤纯度低、批次效应或训练集中缺失的罕见实体。由于降维会将所有样本强制压缩至低维空间,无论诊断确定性如何,视觉匹配绝不应推翻低于阈值的分类结果,而应提示复查质控指标,并通过正交检测确认后再作出诊断。
新兴平台与计算方法
本综述提出的原则适用于任何平台生成的甲基化数据,但新兴测序技术与计算方法正开始重塑甲基化谱的获取、处理与解读方式。牛津纳米孔技术(Oxford Nanopore Technologies, ONT)与太平洋生物科学(Pacific Biosciences, PacBio)的长读长测序平台可直接从天然DNA中检测5-甲基胞嘧啶,无需亚硫酸氢盐转化,从而避免了DNA降解、转化不完全与扩增偏倚等相关伪影。具体而言,纳米孔测序平台可单个样本独立处理,资本成本相对较低,支持对感兴趣基因组区域的自适应测序,并可实现快速周转(包括中枢神经系统肿瘤的术中分类)。与甲基化芯片类似,可从测序数据推断拷贝数变化,但长读长平台还可从单一建库中获得体细胞突变与结构重排信息。长读长测序平台还支持读段水平分析,可计算分离肿瘤与非肿瘤甲基化信号,为低肿瘤纯度标本的分类准确性提升提供新路径。多个团队评估了纳米孔甲基化分类对中枢神经系统肿瘤的诊断准确性,报告其与整合诊断的一致率在72%至95%之间,具体取决于分类器、测序深度与队列构成。这些一致率通常在甲基化家族或超类层面更高,且随测序时长增加而提升。对非中枢神经系统肿瘤类型,准确率往往较低,因其参考数据集更小且成熟度更低。随着参考数据集的扩大与分类器针对测序数据的优化,预计这些结果将持续改善。这些平台也存在重要局限:ONT与PacBio测序对CpG位点的覆盖具有随机性,单次实验可能无法覆盖EPIC芯片检测的所有位点,限制了现有芯片数据的可迁移性。因此在缺乏全面的测序参考数据集的情况下,长读长分类器必须依赖对现有芯片数据的创造性适配进行训练。FFPE样本的兼容性虽在持续改善,但仍不如芯片验证充分。此外,ONT数据的单碱基错误率较高,会为单个CpG位点的甲基化检出引入噪声,因此需要更高的测序深度。这些局限并未削弱长读长平台的潜力,尤其适用于需要单个样本快速周转的临床场景。人工智能的进步可能有助于缓解部分局限。例如,基于Transformer的基础模型在大规模甲基化数据集上训练后,可学习CpG关系的复杂非线性表示,实现缺失值插补与跨平台数据转换,提供更优的特征选择,更好地适配测序数据的稀疏、可变覆盖特性。但当基础模型生成的特征随后被用于UMAP或t-SNE可视化时,所得图谱的审计难度将进一步加大,这也使得本文倡导的报告标准愈发关键。
结语
甲基化分型临床应用的扩展,进一步体现在针对此类检测的专用报销代码的设立,包括甲基化芯片中枢神经系统肿瘤分类的CPT代码(0020M、81524)。尽管这些代码目前仅针对特定的芯片分类器,但随着新分类器与测序方法的成熟,预计将不断演变。随着报销路径的扩展,甲基化分类将从专业学术中心逐步走向更广泛的常规实践。这一趋势使得病理学家掌握分类器结果背后的计算方法基础知识变得至关重要,确保将可视化结果解读为辅助工具,而非确诊的最终证据。UMAP与t-SNE对复杂甲基化数据的可视化具有重要价值,但其解读价值完全依赖于审慎使用、透明报告以及临床、组织学与分子证据的相互印证。为直观展示这些可视化对分析选择的敏感性,本文提供配套在线笔记本,支持研究人员探索预处理步骤、参数设置与随机种子如何显著改变UMAP或t-SNE图谱的外观。EpiDiP等在线平台也提供了互补的交互工具,支持用户将上传的甲基化数据与参考数据集通过UMAP进行对比探索。最终,这些方法的价值依赖于透明度。开放的工作流程可实现发现的验证、改进分类器的开发,以及甲基化数据解读标准的统一。通过采纳分析、解读与报告的清晰标准,病理学界可在保持诊断严谨性的同时,自信地将现代计算方法纳入日常实践。