基于纳米孔直接RNA测序数据的m6A位点预测新工具NP-mFinder的开发与应用

《Frontiers in Genetics》:Nanopore-m6A-finder, a novel m6A site caller for Nanopore DRS data

【字体: 时间:2026年04月22日 来源:Frontiers in Genetics 2.8

编辑推荐:

  本研究针对传统m6A检测方法依赖抗体、难以准确定量、且无法覆盖poly(A)尾等局限性,开发了基于纳米孔直接RNA测序(DRS)数据的参考基因组非依赖性m6A预测工具NP-mFinder。该工具利用XGBoost与随机森林模型,在mRNA外显子区和poly(A)区均能实现单碱基分辨率的m6A位点鉴定与修饰水平评估,与多种正交方法验证结果一致,为全转录组m6A图谱绘制提供了稳健、灵活的新方案。

  
在生命体的精密调控网络中,信使RNA(mRNA)并非一成不变的模板,其上的化学修饰如同一个个精巧的“开关”,精细调控着基因的表达命运。N6-甲基腺苷(m6A)便是其中最丰富、最关键的修饰之一,广泛参与剪接、翻译、降解等过程,与神经发育、免疫应答乃至多种疾病息息相关。然而,长期以来,科学家们如同隔着一层毛玻璃观察m6A的世界。传统的检测方法,如meRIP-seq、miCLIP等,严重依赖抗体的特异性,不仅难以实现精确的定量,更无法捕捉到单分子水平的修饰异质性。更重要的是,对于mRNA的“尾巴”——poly(A)尾区域,由于序列高度重复,常规测序方法的 reads 无法比对到参考基因组,使得此区域的m6A修饰成为一个探测“盲区”。近年来,牛津纳米孔技术(ONT)的直接RNA测序(DRS)带来了转机,它能够直接读取天然RNA分子,将修饰信息保留在原始电流信号中,为在单分子、单核苷酸分辨率下绘制全转录组m6A图谱提供了前所未有的可能。尽管已有如EpiNano、mAFiA等基于DRS的分析工具被开发,但它们或依赖参考基因组,或需要预先候选位点,且均未涉及poly(A)尾区域的分析。是否存在一种更灵活、更全面、能同时解析mRNA编码区和poly(A)尾m6A景观的工具呢?这正是发表在《Frontiers in Genetics》上的这项研究旨在回答的核心问题。
为开展此项研究,作者主要运用了以下关键技术方法:首先,利用牛津纳米孔平台进行直接RNA测序,获取包含修饰信息的原始信号数据。其次,使用Guppy碱基识别软件处理原始信号,并利用Minimap2将reads比对至参考基因组(如酵母SK1、人hg38)或进行参考基因组非依赖分析(针对poly(A)尾)。核心分析方法为机器学习建模,从比对结果中提取包含腺苷的5-mer序列的碱基身份、质量分数和信号轨迹等特征,利用体外转录的含有m6A或正常ATP的RNA的DRS数据,训练并优化XGBoost和随机森林等二元分类模型。最后,将训练好的模型应用于酵母(野生型 vs ime4Δ敲除株)和人类细胞(野生型HEK293 vs METTL3敲低/敲除细胞)的体内DRS数据,进行m6A位点预测、修饰水平计算,并与meRIP-seq、miCLIP、EpiNano、mAFiA及GLORI v2.0等独立方法的结果进行交叉验证和性能评估。
研究结果
2.1 寻找适用于纳米孔DRS数据m6A位点检测的合适二元分类算法
研究人员从含有正常腺苷(norm-A)和含有m6A的体外转录(IVT)mRNA的DRS数据中,提取所有包含至少一个腺苷的5-mer序列特征。他们发现,含有m6A的5-mer的平均碱基识别质量分数显著低于正常组。通过比较多种机器学习算法,发现XGBoost和随机森林(RF)模型性能最佳。进一步通过平衡数据集和调整参数优化了模型,并尝试了加权平均和硬投票两种集成策略。最终确定,在mRNA外显子区使用调整后的XGBoost模型进行预测,而在poly(A)区使用XGBoost-RF硬投票集成模型。
2.2 使用训练好的XGBoost模型可以在mRNA外显子区域以良好的性能预测m6A位点和水平
将训练好的XGBoost模型应用于酵母和人类HEK293细胞的DRS数据。在酵母中,模型鉴定了5,964个m6A位点,其修饰水平在野生型中显著高于m6A写入酶ime4敲除株,并与已知的meRIP-seq位点有20%的重叠。在HEK293细胞中,鉴定了40,335个位点,其修饰水平在野生型中显著高于METTL3敲低细胞,并与miCLIP位点有26.5%的重叠。与基于DRS的工具EpiNano和mAFiA相比,NP-mFinder在单个位点水平上的重叠有限,但在基因水平上,NP-mFinder鉴定的73%的含m6A基因得到了至少一种其他工具的验证。与高精度的化学方法GLORI v2.0比较显示,在位点水平有28%的一致性,在基因水平上一致性高达85%,且修饰水平估计值呈显著正相关。这些结果表明NP-mFinder是一个稳健、准确的工具。
2.3 通过我们的XGBoost-随机森林(RF)硬投票集成模型在布氏锥虫和人细胞mRNA的poly(A)尾中检测到m6A
应用XGBoost-RF硬投票集成模型分析poly(A)尾区域。在已知poly(A)尾存在m6A修饰的布氏锥虫VSG2转录本中,模型预测的修饰水平显著高于阴性对照转录本,验证了模型在该区域的有效性。更重要的是,当应用于人HEK293细胞数据时,模型预测野生型细胞中552个基因的poly(A)尾具有m6A修饰,且其修饰水平显著高于METTL3敲低细胞,提示m6A修饰可能存在于人类mRNA的poly(A)尾中,并由METTL3催化。为进一步验证模型在连续A序列(模拟poly(A)尾环境)中的性能,研究者利用GLORI v2.0注释的高置信度“AAAAA”序列上下文中的m6A位点进行测试,结果显示NP-mFinder的集成模型预测精度达到93%,有力地支持了其在poly(A)区域分析的可信度。
研究结论与意义
本研究成功开发了名为Nanopore-m6A-Finder (NP-mFinder)的新型计算框架。该研究得出结论,NP-mFinder是一个无需参考基因组、能够实现单核苷酸分辨率和单分子水平定量(以相对修饰水平表示)的m6A检测强大工具。它不仅能够在mRNA的外显子区域(包括CDS和UTR)准确鉴定m6A位点并估计其修饰水平,与多种正交实验方法(如抗体富集测序、化学测序GLORI v2.0及其他DRS分析工具)的结果具有显著一致性,更重要的是,它首次将检测能力扩展至此前方法难以触及的poly(A)尾区域。
该研究的核心意义在于:方法学上,NP-mFinder克服了传统方法依赖抗体、序列偏好、无法分析poly(A)尾等局限,以及现有部分DRS工具需要参考基因组或预选位点的限制,提供了一种更灵活、更全面的分析方案。生物学发现上,其预测结果强烈提示m6A修饰可能不仅存在于布氏锥虫,也存在于人类细胞(如HEK293)的mRNA poly(A)尾中,这挑战了之前某些研究认为哺乳动物poly(A)尾无m6A修饰的观点,预示了一种可能超越布氏锥虫的、保守的“修饰化poly(A)尾”现象,为理解m6A调控的多样性和poly(A)尾功能开辟了全新的研究方向。尽管该方法在绝对定量准确性、对特定测序试剂盒/芯片的依赖性以及检测灵敏度方面仍有提升空间,但它无疑为利用大量已公开的纳米孔DRS数据深入挖掘m6A在不同生物学背景下的动态变化和功能,提供了强有力的新工具,将极大地推动表观转录组学领域的发展。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号