《PLOS Computational Biology》:STARCall integrates image stitching, alignment, and read calling to enable scalable analysis of in situ sequencing data
编辑推荐:
针对原位测序(in situ sequencing)数据处理中存在的拼接、对齐(alignment)和读取判定(read calling)等巨大挑战,研究人员开发了名为STARCall的新型软件流程。该研究将图像拼接和对齐整合为一步,显著降低了周期内(intra-cycle)和周期间(inter-cycle)的对齐误差,并通过改进的过滤和归一化方法提升了读取判定的准确性与通量。结果表明,STARCall在多种复杂成像条件下均表现出色,能实现更精准的基因型-表型关联分析,为大规模光学汇集筛选(optical pooled screening)和变异功能研究提供了强大、可靠且开源的解决方案。
想象一下,科学家们能够直接在完整的细胞或组织中“读出”DNA或RNA的序列,这就像是在细胞的“家”里进行一场精密的侦探工作。这种技术被称为荧光原位测序(fluorescent in situ sequencing, FISS),它通过成像的方式,在细胞内部进行合成测序。近年来,这种技术尤其在光学汇集筛选(optical pooled screening)中找到了用武之地,科学家们可以将一个包含CRISPR介导的基因敲除或遗传变异等大量扰动信息的文库导入细胞,然后通过原位测序来揭示每个细胞内发生了哪种特定的扰动,从而大规模地研究基因或蛋白质变异的功能。这项技术前景广阔,但要处理它所产生的海量图像数据,却是一个令人望而生畏的巨大挑战。
挑战具体体现在哪里呢?一次典型的原位测序实验会产生数万个图像,涵盖数百万个细胞。这些图像首先需要进行“拼接”,因为显微镜每次只能拍摄一个视野,需要将许多相邻视野的图像像拼图一样组合成完整的样本视图。其次,由于测序需要进行多轮循环,每轮循环都需要添加不同的试剂,样本板(well plate)常常需要从显微镜上取下再放回,这就导致了每轮循环拍摄的图像并不在完全相同的坐标空间里,因此还需要进行精确的“对齐”。最后,才是真正的“读取判定”:我们需要在每轮循环的图像中,检测到那些代表目标序列的、由滚环扩增(Rolling Circle Amplification, RCA)产生的微小、明亮的扩增子集落(amplicon colony)“光点”,并根据这些光点在不同循环、不同荧光通道(对应A、T、C、G四种碱基)中的亮灭情况,判读出最终的DNA序列。任何一个环节的微小误差,比如对齐偏差了哪怕一个像素,都可能导致整个序列判读错误,让昂贵的实验功亏一篑。
此前,尽管有一些工具如ASHLAR和MIST可用于部分处理步骤,但它们或无法处理不同物镜拍摄的图像对齐,或缺少对复杂背景荧光和信号衰减的鲁棒性处理,更重要的是,没有一个统一的流程能从头到尾完整处理原位测序数据的所有步骤。为了系统性地解决这些难题,研究人员开发了STARCall(STitching, Alignment and Read Calling for in situ sequencing)——一个强大的软件流程,旨在为原位测序数据分析提供一个端到端的稳健解决方案。
研究人员主要采用了以下几个关键技术方法:1. 开发了名为ConStitch的核心算法,通过构建包含所有循环图像的单一邻接图并进行全局优化,实现了图像拼接与周期对齐的联合求解,最小化了周期内和周期间的误对齐。2. 设计了新的读取判定流程,针对原位测序图像中背景荧光累积和信号衰减的特性,结合高斯滤波去除背景、Z-score归一化校正强度差异、跨通道和跨循环的标准差计算等步骤,显著提升了扩增子集落的检测和碱基调用的准确性。3. 整合了成熟的第三方工具构建完整分析流程,包括使用CellPose或Stardist进行细胞分割,使用CellProfiler从表型图像中计算细胞特征,从而将基因型与表型信息关联起来。研究所用的数据集包括约250,000张图像,来源于在U2OS细胞中表达的~3,500个条形码LMNA变异库的汇集筛选,以及在诱导多能干细胞(iPSC)和iPSC衍生神经元中表达的~1,200个条形码PTEN变异库。
Stitching and alignment of multi-cycle imaging datasets(多循环成像数据集的拼接与对齐)
研究开发了ConStitch算法。与之前方法(如ASHLAR先拼接第一轮再对齐后续轮次)不同,ConStitch将整个多循环数据集的所有图像(包括不同物镜拍摄的图像)纳入一个统一的邻接图中,并使用均值绝对误差(Mean Absolute Error, MAE)求解器进行全局位置优化。这种方法在存在噪声和错误约束时更稳健。研究还发现,为避免对齐误差而对图像进行亚像素插值反而会降低代表扩增子集落的“光点”强度并增加误判率,因此选择了保留微小整数像素对齐误差的策略。
Global stitching and alignment improves performance(全局拼接与对齐提升了性能)
评估显示,在单循环图像拼接上,ConStitch与MIST表现相当。但在多循环对齐任务中,ConStitch显著优于ASHLAR。在应用于包括VIS-seq和CRISPR筛选在内的9个图像集时,ConStitch实现了超过50%的图像块(tile)残余误对齐小于1像素,性能超出ASHLAR 14-35%。这证明了联合优化所有循环对于实现低对齐误差至关重要。
New methods of background filtering and normalization improve read calling results(新的背景过滤与归一化方法提升了读取判定结果)
STARCall的读取判定流程引入了创新的预处理步骤。通过高斯滤波去除大范围背景荧光,并对每个通道和循环独立进行Z-score归一化,有效克服了信号随循环衰减和背景(尤其在C、A通道)累积的问题。随后通过强调单通道信号、计算跨循环像素强度标准差等步骤,增强了对扩增子集落的检测。在九个图像集上的测试表明,与Feldman等人的流程相比,STARCall使得基因分型成功的细胞数量增加了8-40%。在手动标注的测试集上,STARCall也显示出更高的准确性。其碱基调用频率更符合条形码文库的预期,证明其对背景变化更具鲁棒性。
STARCall implementation, data handling and use(STARCall的实现、数据处理与使用)
STARCall采用Python实现,通过Snakemake工作流管理器进行组织,支持在计算集群上并行处理太字节级别的数据。虽然其ConStitch组件和读取判定模块在计算资源(CPU时间和内存)使用上高于ASHLAR和Feldman流程,但换取了更优的性能。软件是开源的,并提供了模块化的Python库以及可定制的Snakemake完整流程。
Discussion(讨论与结论)
本研究成功开发了STARCall,一个针对条形码原位测序数据的端到端分析流程。其核心贡献在于:第一,通过ConStitch算法实现了多循环图像的全局联合拼接与对齐,获得了近乎像素级完美的对齐精度,显著优于现有工具。第二,设计了一套新颖的背景过滤和信号归一化方案,有效应对了原位测序过程中信号衰减和背景累积的核心难题,从而大幅提升了读取判定的准确性和细胞基因分型的成功率。这些改进使得研究人员能够从复杂成像条件下的数据中提取出更多可靠信息。
尽管STARCall在性能上取得了显著进步,但研究也指出了其局限性与未来方向。例如,ConStitch的计算成本较高,且随循环数增加呈二次方增长;当前的Z-score归一化假设各碱基出现频率均等,未来可结合已知条形码库频率进行更精准的校正。此外,严重的成像渐晕(vignetting)可能影响效果,不过STARCall已可集成BaSiC工具进行照明校正。
重要的是,STARCall中发展的算法具有更广泛的应用潜力。ConStitch可应用于任何需要多轮成像对齐的实验,如循环免疫荧光(cyclic immunofluorescence)或IBEX技术。其读取判定方法也可扩展至其他基于条形码的原位检测实验或空间转录组学分析。
综上所述,STARCall通过整合并优化图像拼接、对齐和读取判定等关键步骤,为原位测序,特别是大规模光学汇集筛选,提供了一个强大、可靠且开源的计算分析工具。它不仅解决了该领域长期存在的技术瓶颈,推动了高通量、高内涵的细胞内部基因型-表型关联研究,其模块化设计也为相关成像数据分析方法的未来发展奠定了坚实基础。该研究成果已发表于《PLOS Computational Biology》期刊。