TUSCO：基于内源单同工型对照的转录组重建基准测试新框架

《Nature Communications》：TUSCO: benchmarking transcriptome reconstruction with endogenous single-isoform controls

【字体：大中小】 时间：2026年04月25日 来源：Nature Communications 15.7

编辑推荐：

　　长读长测序（LRS）平台的转录组分析，常受测序错误、样本质量差异和建库偏好性等因素影响，而现有基准测试方法（如BUSCO、SIRV/ERCC spike-ins、模拟算法）在评估准确性、模拟真实样本复杂性方面存在不足。为此，研究人员开发了转录组通用单同工型对照（TUSCO）基准测试框架。该框架通过利用内源性的、无可变剪接的单同工型基因集作为内部真实对照，量化了转录组重建的准确度与灵敏度，并设计了TUSCO-novel挑战来评估新转录本的发现能力。验证表明，TUSCO无需外源对照即可提供准确可靠的基准测试，显著提升了LRS转录组重建的质量控制标准。

探索生命奥秘，解码基因功能，转录组学研究犹如一张描绘细胞RNA表达的精细地图。然而，绘制这份地图的工具——长读长测序（Long-read sequencing, LRS）技术，如Oxford Nanopore和Pacific Biosciences平台，虽然让我们得以一窥RNA分子的全貌，但在实际操作中却面临诸多挑战。测序过程中难以避免的错误、不同样本质量的高低起伏、以及实验建库步骤中可能引入的系统性偏差，都像是给这张地图蒙上了面纱，影响了最终结果的清晰度与可靠性。为了评判不同方法绘制“地图”的优劣，科学家们需要一把客观的“尺子”，即基准测试方法。但目前常用的“尺子”各有局限：BUSCO（Benchmarking Universal Single-Copy Orthologs）通过评估保守单拷贝同源基因的完整性来衡量转录组完整度，但在面对普遍存在的可变剪接现象时，容易误将同一个基因的不同剪接变体当作多个基因，导致结果误判。而像SIRV（Spike-In RNA Variant）和ERCC（External RNA Controls Consortium）这类外源RNA对照，虽然能精确添加，但它们所模拟的RNA环境过于理想和简单，无法反映真实生物样本中复杂的RNA降解情况、提取过程中的人为假象，这往往会导致评估性能被高估，产生“虚高”的分数。至于完全依赖计算机的模拟算法，其构建的虚拟世界也难以完全复现真实生物样本那令人惊叹的复杂性。这些“尺子”的不足，使得科学界急需一种更贴近真实、更可靠的基准测试新方案，来公正地衡量和推动长读长转录组学技术的发展。

为了回答如何更准确、更贴近真实样本地评估转录组重建质量这一核心问题，研究人员在《Nature Communications》上发表研究，提出了名为TUSCO（Transcriptome Universal Single-isoform COntrol）的创新性基准测试框架。这项研究的主要结论是，TUSCO框架能够利用内源性的、无可变剪接的单同工型基因作为可靠的内部真实对照，有效量化转录组重建的准确度与灵敏度，并通过设计巧妙的“掩蔽-替换”挑战来评估新异构体的发现能力，从而在没有外源对照的情况下，为基于长读长测序的转录组重建提供更准确、可靠的基准测试和质量控制标准，解决了现有方法高估性能、忽视真实样本复杂性等关键问题，对提升该领域的分析严谨性具有重要意义。

为开展此项研究，作者主要运用了生物信息学与计算生物学方法。核心是构建并应用了TUSCO基准测试框架本身，这依赖于对参考基因组注释（如GENCODE/Ensembl）的深入分析，以系统性地筛选和确定“TUSCO基因集”——即那些在特定物种（如人和小鼠）中，有充分证据表明只存在单一同工型、没有可变剪接的基因。研究利用公开的长读长测序数据集（来源于人脑、肝脏等组织以及小鼠样本）进行验证。关键的分析技术包括：将重建的转录本与参考注释进行比较，以量化偏离参考的转录本（衡量准确度/精度）；评估TUSCO基因集内基因的检出完整性（衡量灵敏度）；以及通过从注释中掩蔽TUSCO基因的转录本并用修饰过的剪接变体替换，创造“TUSCO-novel”评估场景，以测试工具重建真实但未注释的同工型的潜力。

TUSCO框架的设计与评估指标

为了建立TUSCO框架，研究人员首先从参考注释中系统性地筛选出一个“TUSCO基因集”，该集合由在特定物种中被证实仅表达单一同工型、不存在可变剪接的基因组成。这些基因因其表达模式的确定性，可以被视为评估时的内部真实对照。基于此基因集，TUSCO定义了两个核心评估指标：准确度（或精度）和灵敏度。准确度通过识别重建转录本中那些与参考注释存在偏差（即“匹配错误”）的部分来量化，反映了重建结果的忠实度。灵敏度则通过检查TUSCO基因集中的基因是否被完整地检测出来进行评估，反映了方法发现已知转录本的能力。

TUSCO-novel挑战：评估新异构体重建能力

除了评估已知转录本的恢复情况，TUSCO框架还设计了一个更富挑战性的评估场景，称为“TUSCO-novel”。在这个场景中，研究人员从参考注释中主动“掩蔽”（即移除）TUSCO基因集本身的转录本，并用经过修饰的剪接变体取而代之。这样，被掩蔽的原始转录本就变成了“真实存在但未标注”的目标。评估任务转变为考察不同的转录组重建流程能否从测序数据中正确地重新发现这些真实的、但当前注释中不存在的同工型。这项挑战直接测试了分析方法挖掘新转录本、不局限于已知注释的能力。

在人类和小鼠数据上的验证

研究在真实的人类和小鼠长读长测序数据上对TUSCO框架进行了全面验证。分析表明，与依赖外源对照（如SIRV）或保守同源基因（BUSCO）的方法相比，TUSCO提供的评估指标更能准确地反映不同转录组重建流程（如不同比对工具、组装工具）在实际样本中的真实性能差异。TUSCO成功揭示了某些方法在灵敏度或准确度上的特定优势或不足，并且其评估结果不受样本间RNA降解程度差异等真实世界复杂因素的过度影响，证明了其稳健性。

结论与讨论

本研究提出的TUSCO框架，为核心的长读长转录组学分析——转录组重建——提供了一种革新性的基准测试方案。它巧妙地利用了基因组注释中内生的、具有确定单一同工型的基因作为内部对照，摒弃了对可能无法反映真实样本复杂性的外源spike-in或过于简化模拟的依赖。TUSCO不仅能够可靠地量化重建的准确度与灵敏度，其独创的TUSCO-novel挑战更是将评估延伸至对新转录异构体的发现能力，这是许多生物学研究的关键目标。验证结果证实，TUSCO指标能够提供准确可靠的性能评估，显著提升了使用长读长测序（Long-read sequencing, LRS）平台进行转录组重建时的质量控制标准。这项工作解决了当前领域内基准测试的痛点，为工具开发者提供了更公正的“标尺”，也为应用研究人员提供了评估数据质量的重要参考，有望推动长读长转录组学分析技术向更精准、更可靠的方向发展。

热点排行