基于纳米孔直接RNA测序数据的m6A位点预测新工具NP-mFinder的开发与应用

《Frontiers in Genetics》：Nanopore-m6A-finder, a novel m6A site caller for Nanopore DRS data

【字体：大中小】 时间：2026年04月22日 来源：Frontiers in Genetics 2.8

编辑推荐：

　　本研究针对传统m6A检测方法依赖抗体、难以准确定量、且无法覆盖poly(A)尾等局限性，开发了基于纳米孔直接RNA测序（DRS）数据的参考基因组非依赖性m6A预测工具NP-mFinder。该工具利用XGBoost与随机森林模型，在mRNA外显子区和poly(A)区均能实现单碱基分辨率的m6A位点鉴定与修饰水平评估，与多种正交方法验证结果一致，为全转录组m6A图谱绘制提供了稳健、灵活的新方案。

在生命体的精密调控网络中，信使RNA（mRNA）并非一成不变的模板，其上的化学修饰如同一个个精巧的“开关”，精细调控着基因的表达命运。N⁶-甲基腺苷（m⁶A）便是其中最丰富、最关键的修饰之一，广泛参与剪接、翻译、降解等过程，与神经发育、免疫应答乃至多种疾病息息相关。然而，长期以来，科学家们如同隔着一层毛玻璃观察m⁶A的世界。传统的检测方法，如meRIP-seq、miCLIP等，严重依赖抗体的特异性，不仅难以实现精确的定量，更无法捕捉到单分子水平的修饰异质性。更重要的是，对于mRNA的“尾巴”——poly(A)尾区域，由于序列高度重复，常规测序方法的 reads 无法比对到参考基因组，使得此区域的m⁶A修饰成为一个探测“盲区”。近年来，牛津纳米孔技术（ONT）的直接RNA测序（DRS）带来了转机，它能够直接读取天然RNA分子，将修饰信息保留在原始电流信号中，为在单分子、单核苷酸分辨率下绘制全转录组m⁶A图谱提供了前所未有的可能。尽管已有如EpiNano、mAFiA等基于DRS的分析工具被开发，但它们或依赖参考基因组，或需要预先候选位点，且均未涉及poly(A)尾区域的分析。是否存在一种更灵活、更全面、能同时解析mRNA编码区和poly(A)尾m⁶A景观的工具呢？这正是发表在《Frontiers in Genetics》上的这项研究旨在回答的核心问题。

为开展此项研究，作者主要运用了以下关键技术方法：首先，利用牛津纳米孔平台进行直接RNA测序，获取包含修饰信息的原始信号数据。其次，使用Guppy碱基识别软件处理原始信号，并利用Minimap2将reads比对至参考基因组（如酵母SK1、人hg38）或进行参考基因组非依赖分析（针对poly(A)尾）。核心分析方法为机器学习建模，从比对结果中提取包含腺苷的5-mer序列的碱基身份、质量分数和信号轨迹等特征，利用体外转录的含有m⁶A或正常ATP的RNA的DRS数据，训练并优化XGBoost和随机森林等二元分类模型。最后，将训练好的模型应用于酵母（野生型 vs ime4Δ敲除株）和人类细胞（野生型HEK293 vs METTL3敲低/敲除细胞）的体内DRS数据，进行m⁶A位点预测、修饰水平计算，并与meRIP-seq、miCLIP、EpiNano、mAFiA及GLORI v2.0等独立方法的结果进行交叉验证和性能评估。

研究结果

2.1 寻找适用于纳米孔DRS数据m⁶A位点检测的合适二元分类算法

研究人员从含有正常腺苷（norm-A）和含有m⁶A的体外转录（IVT）mRNA的DRS数据中，提取所有包含至少一个腺苷的5-mer序列特征。他们发现，含有m⁶A的5-mer的平均碱基识别质量分数显著低于正常组。通过比较多种机器学习算法，发现XGBoost和随机森林（RF）模型性能最佳。进一步通过平衡数据集和调整参数优化了模型，并尝试了加权平均和硬投票两种集成策略。最终确定，在mRNA外显子区使用调整后的XGBoost模型进行预测，而在poly(A)区使用XGBoost-RF硬投票集成模型。

2.2 使用训练好的XGBoost模型可以在mRNA外显子区域以良好的性能预测m⁶A位点和水平

将训练好的XGBoost模型应用于酵母和人类HEK293细胞的DRS数据。在酵母中，模型鉴定了5,964个m⁶A位点，其修饰水平在野生型中显著高于m⁶A写入酶ime4敲除株，并与已知的meRIP-seq位点有20%的重叠。在HEK293细胞中，鉴定了40,335个位点，其修饰水平在野生型中显著高于METTL3敲低细胞，并与miCLIP位点有26.5%的重叠。与基于DRS的工具EpiNano和mAFiA相比，NP-mFinder在单个位点水平上的重叠有限，但在基因水平上，NP-mFinder鉴定的73%的含m⁶A基因得到了至少一种其他工具的验证。与高精度的化学方法GLORI v2.0比较显示，在位点水平有28%的一致性，在基因水平上一致性高达85%，且修饰水平估计值呈显著正相关。这些结果表明NP-mFinder是一个稳健、准确的工具。

2.3 通过我们的XGBoost-随机森林（RF）硬投票集成模型在布氏锥虫和人细胞mRNA的poly(A)尾中检测到m⁶A

应用XGBoost-RF硬投票集成模型分析poly(A)尾区域。在已知poly(A)尾存在m⁶A修饰的布氏锥虫VSG2转录本中，模型预测的修饰水平显著高于阴性对照转录本，验证了模型在该区域的有效性。更重要的是，当应用于人HEK293细胞数据时，模型预测野生型细胞中552个基因的poly(A)尾具有m⁶A修饰，且其修饰水平显著高于METTL3敲低细胞，提示m⁶A修饰可能存在于人类mRNA的poly(A)尾中，并由METTL3催化。为进一步验证模型在连续A序列（模拟poly(A)尾环境）中的性能，研究者利用GLORI v2.0注释的高置信度“AAAAA”序列上下文中的m⁶A位点进行测试，结果显示NP-mFinder的集成模型预测精度达到93%，有力地支持了其在poly(A)区域分析的可信度。

研究结论与意义

本研究成功开发了名为Nanopore-m⁶A-Finder (NP-mFinder)的新型计算框架。该研究得出结论，NP-mFinder是一个无需参考基因组、能够实现单核苷酸分辨率和单分子水平定量（以相对修饰水平表示）的m⁶A检测强大工具。它不仅能够在mRNA的外显子区域（包括CDS和UTR）准确鉴定m⁶A位点并估计其修饰水平，与多种正交实验方法（如抗体富集测序、化学测序GLORI v2.0及其他DRS分析工具）的结果具有显著一致性，更重要的是，它首次将检测能力扩展至此前方法难以触及的poly(A)尾区域。

该研究的核心意义在于：方法学上，NP-mFinder克服了传统方法依赖抗体、序列偏好、无法分析poly(A)尾等局限，以及现有部分DRS工具需要参考基因组或预选位点的限制，提供了一种更灵活、更全面的分析方案。生物学发现上，其预测结果强烈提示m⁶A修饰可能不仅存在于布氏锥虫，也存在于人类细胞（如HEK293）的mRNA poly(A)尾中，这挑战了之前某些研究认为哺乳动物poly(A)尾无m⁶A修饰的观点，预示了一种可能超越布氏锥虫的、保守的“修饰化poly(A)尾”现象，为理解m⁶A调控的多样性和poly(A)尾功能开辟了全新的研究方向。尽管该方法在绝对定量准确性、对特定测序试剂盒/芯片的依赖性以及检测灵敏度方面仍有提升空间，但它无疑为利用大量已公开的纳米孔DRS数据深入挖掘m⁶A在不同生物学背景下的动态变化和功能，提供了强有力的新工具，将极大地推动表观转录组学领域的发展。

热点排行