SIGMA:基于掩码自编码的基因网络自监督推断方法

《Frontiers in Genetics》:SIGMA: self-supervised inference of gene networks via masked auto-encoding

【字体: 时间:2026年06月05日 来源:Frontiers in Genetics 2.8

编辑推荐:

  基因调控网络(Gene Regulatory Networks, GRNs)推断是从表达谱数据中识别转录因子(Transcription Factors, TFs)与其直接靶基因之间调控关系的关键方法,对解析复杂疾病通路中的关键基因具有重要意义。然而,当前基于

  
基因调控网络(Gene Regulatory Networks, GRNs)推断是从表达谱数据中识别转录因子(Transcription Factors, TFs)与其直接靶基因之间调控关系的关键方法,对解析复杂疾病通路中的关键基因具有重要意义。然而,当前基于机器学习的GRN推断方法面临双重挑战:非监督方法尽管无需标注数据,但推断精度难以满足需求;监督方法虽能获得较准确的结果,却受限于高质量相互作用标注的稀缺性。此外,现有模型在跨GRN亚型迁移推理方面存在显著不足。这些问题不仅影响GRN推断效果,还阻碍了新调控模式的发现。为应对上述挑战,研究人员开发了SIGMA——一种基于Transformer的框架,利用自监督学习在无标注表达谱上预训练编码器,从而减轻对高质量标注的依赖。在预训练阶段,SIGMA将基因表达基因对转换为非重叠片段(patches),并随机掩码其中部分片段,迫使编码器从未掩码片段中提取相关性表征,同时使解码器能够重建掩码片段并保持其相似性。实验结果表明,预训练后的编码器不仅能准确推断GRNs,还可用于推断其他亚型,从而降低对标注的依赖。在人类和小鼠数据集的基准测试中,SIGMA优于现有最优方法。在乳腺癌数据集上的应用显示,SIGMA的预测与已知网络一致,并识别出金标准网络中未见报道的候选相互作用,值得进一步研究和实验验证。
基因调控网络(Gene Regulatory Networks, GRNs)是定义转录因子(Transcription Factors, TFs)与其直接靶基因之间相关性的复杂系统,具体调控TF介导的靶基因转录激活或抑制过程。GRN推断与理解分子机制、靶点识别及药物设计密切相关,而基因表达谱作为分子生物学的突破性创新,为揭示基因相互作用的起源与动态提供了重要视角。然而,传统GRN推断主要依赖对每个TF-靶点关系的实验验证,存在成本高、耗时久且易受个体及环境变异影响等局限,严重制约了其在GRN推断任务中的效率,亟需更高效的方法。

机器学习的进展为GRN推断开辟了新途径。这些方法通常利用基因表达谱识别相互作用模式并推断潜在基因-基因关系,将实验确认的相互作用标记为"1"、未确认的标记为"0",从而将GRN推断框架为二元分类问题。现有方法涵盖非监督与监督学习两类路径。非监督方法仅通过分析表达谱而不依赖先验标注进行推断,如GENIE3、PIDC、SCENIC和GRNBoost2等方法通过评估相关性重要性识别潜在TF-靶点配对相互作用。然而,缺乏先验标注导致识别的相关性过多,无法区分真正的调控相互作用,极大限制了其应用。相比之下,监督方法依赖先验标注从表达谱推断GRNs,往往能产生可靠结果,如DeepSEM、CNNC、DGRNS和STGRN等方法将TF-靶点配对转化为特征矩阵,利用卷积神经网络(Convolutional Neural Networks, CNNs)、循环神经网络(Recurrent Neural Networks, RNNs)或Transformer模型基于已知基因关系准确推断GRNs。但"已确认"与"未确认"相互作用之间的界限并不清晰——这些真实但未确认的相互作用会妨碍模型推断并削弱其性能。此外,监督方法通常在现有标注上训练整个模型,新确认的相互作用需要完全重新训练以适应更新的GRNs,而发现不同GRN类型往往需要从头训练新模型,导致大量冗余与资源浪费。

研究人员从以下视角回应"如何训练更通用鲁棒的模型,仅调整少量参数即可更新,并能推断多种GRN类型"这一问题。首先,GRN推断受标注稀缺性限制:非监督方法规避此需求但性能不佳,监督方法虽精度更高但需要大量高质量标注。自监督学习通过自监督任务(pretext tasks)降低对标注质量的依赖,使模型直接从原始数据中提取内在相关性表征(即特征),完全绕过人工标注,这些通用特征可无缝迁移至多样下游任务,达到甚至超越全监督基线的性能。其次,TF-靶点相关性的建模无需大量预处理:基因表达序列代表状态变化且具有高信息密度。虽然通过系数或共表达直方图探索TF-靶点相关性似乎可行,但这种预处理会扭曲原始语义并引入阻碍模型推断的偏差。为在保留原始信息的同时学习有意义的特征,研究人员采用改进的掩码自编码器(Masked Auto-Encoder, MAE)自监督任务:掩码TF-靶点序列的部分片段,要求模型从未掩码片段重建它们,同时强制与原始数据保持一致。这种方法保留原始信息、使模型捕获内在相关性,并能跨多样GRN亚型迁移。第三,先前方法通常关联整个基因表达序列,但基因调控并非全局过程,仅在特定时间窗口出现。强制全局连接往往会降低模型性能,DGRNS和STGRN等模型已明确验证这一原则。遵循此洞见,研究人员的方法不仅显著降低计算成本和内存使用,还增加了掩码语义单元的信息密度,使模型能学习更具判别性的特征。

基于上述分析,研究人员提出基于Transformer的框架SIGMA(Self-supervised Inference of GRNs via Masked Auto-encoding),借鉴MAE思想。SIGMA利用自监督学习在无标注表达谱上进行预训练,将TF-靶点配对转化为非重叠片段并通过随机掩码部分片段,通过自监督任务使编码器从未掩码片段中提取相关性表征,从而使解码器重建掩码片段并确保掩码片段与重建片段之间的表征相似性。后续实验揭示70%的掩码比率能使编码器捕获最优相关性表征。预训练后的编码器可准确推断GRNs并促进对各种亚型的深入探索。研究人员在来自五种细胞系的七个基准表达谱数据集上评估SIGMA性能,包括两种人类和三种小鼠细胞系,涵盖四种不同的金标准网络。结果表明SIGMA优于现有最优方法,建立了基于自监督学习的GRN推断新方法。

SIGMA的核心步骤包括:(i)无标注预训练阶段提取基因相关性表征,(ii)下游任务推断调控关系。具体技术方法方面,在预处理阶段采用滑动窗口操作将表达序列分割为非重叠子向量(窗口大小为s),并应用正弦-余弦位置嵌入(Positional Embedding, PE)保留时间位置信息。随机掩码机制将输入分割为掩码区Xmasked和可见区Xunmasked,最优掩码比率为70%。编码器采用多层Transformer架构,每层包含多头自注意力机制(Multi-Head Self-Attention, MHSA)和前馈网络(Feed-Forward Network, FFN),通过线性变换生成Query(Q)、Key(K)和Value(V)矩阵计算注意力分数。值得特别说明的是,编码器分别独立处理Xunmasked和Xmasked而非同时输入,此设计最大化防止编码器从Xmasked获取信息。解码器同样基于Transformer架构,按原始序列位序排列Zunmasked并以掩码令牌填充缺失位置,通过线性投影层(predictor)将输出恢复为Xpred。多任务优化结合掩码表征回归(Masked Representation Regression, MRR)和表征相似性最大化(Maximizing the Similarity of Representations, MSR):MRR以均方误差(Mean Squared Error, MSE)最小化Xpred与Xmasked差异,MSR通过负余弦相似度(Negative Cosine Similarity, NCS)对齐解码器输出P与Zmasked,其中sg(·)表示 stop-gradient 操作。下游推断阶段冻结预训练编码器参数,通过平均池化层聚合特征后由线性分类器进行二元分类,采用二元交叉熵(Binary Cross-Entropy, BCE)计算损失。样本数据集来源方面,基准测试使用BEELINE项目的七个不同细胞类型表达谱数据集,包括人类胚胎干细胞(hESC)、人类成熟肝细胞(hHEP)、小鼠树突状细胞(mDC)、小鼠胚胎干细胞(mESC)、小鼠红系造血祖细胞(mHSC-E)、小鼠粒-单核细胞系造血祖细胞(mHSC-GM)和小鼠淋巴系造血祖细胞(mHSC-L),每个数据集补充STRING网络、非特异性网络和细胞类型特异性网络三种金标准网络,mESC数据集还额外包含功能缺失/获得(LOF/GOF)网络;乳腺癌真实数据分析采用GEO数据库GSE123837的人类乳腺癌转移数据集,包含三种患者来源异种移植(Patient-Derived Xenograft, PDX)模型(HCI001、HCI002、HCI010),结合RegNetwork和TRRUST两个综合数据库的调控关系。

实验结果部分,"基准数据集上的SIGMA评估"显示,与GENIE3、GRNBoost2等非监督方法以及DeepSEM、GNE、CNNC、DGRNS、STGRN等监督方法相比,SIGMA在AUROC和AUPRC指标上持续优于其他方法。非监督模型因缺乏标注导致推断效能大幅下降,而监督模型虽通常表现更好,但标注中的假阴性会显著降低GRN推断准确性,且CNNC和DGRNS等将表达序列转换为类图像特征矩阵的方法保留了过多序列噪声。"跨亚型GRN推断"结果表明,与CNNC和STGRN相比,SIGMA在迁移学习场景下表现更优,即使在未见TF或未见靶点的严格评估条件下,仍能保持稳定性能且偏差极小,展现出更强的适应性和鲁棒性。Venn图分析揭示除mHSC外,其他细胞类型的细胞类型特异性网络包含的配对数虽少于其他两种网络,但其中大量配对也存在于其他网络中,而mHSC数据集三种网络间TF-靶点配对重叠比例较低,CNNC和STGRN对此噪声更敏感导致性能下降,SIGMA则表现出更强的抗噪能力。

"超参数鲁棒性评估"发现增加注意力头数显著提升AUPRC,但更深层数因过拟合风险未带来更好效果;嵌入大小变化导致性能显著波动,高维空间会放大噪声传播;掩码比率分析证实70%为最优值,过低阻碍TF-靶点关系识别,过高则使模型难以区分噪声与真实信号。"噪声鲁棒性评估"表明SIGMA在噪声条件下达到最优推断性能,其预处理阶段的片段分割和自监督任务设计使模型能在噪声干扰下学习真实调控关联。"无微调仍鲁棒"实验显示"w/o ft"(无微调)与"w/ ft"(有微调)配置常产生可比拟结果,在无微调场景下仍具竞争力,特别适用于标注稀疏的非特异性和STRING网络。"模块功效评估"通过消融实验证明位置嵌入对GRN推断至关重要,而类别令牌未能满足性能预期;普通Transformer优于LSTM、GRU、Hydra Attention和Local Self-Attention等变体;MRR和MSR任务同时优化时效果最佳,stop-gradient操作不可或缺。

SIGMA预测的调查部分以乳腺癌为案例研究,基于SIGMA预测构建的GRN展现出层级化和无尺度的拓扑特性,与经典GRN架构一致。SIGMA成功恢复了金标准网络中记录的相互作用,并识别出SP1和E2F1等已建立的枢纽调控因子。三条PDX模型的网络存在细微差异:早期乳腺癌模型显示TP53连接性增加,晚期疾病模型显示MYC相关调控边 abundance,三阴性乳腺癌PDX模型中非特异性网络支持的边(红边)更为 prevalent,提示该亚型存在独特的非经典调控机制;激素受体阳性模型中细胞类型特异性网络支持的边(蓝边)富集,反映亚型特异性调控特征;转移性PDX模型中STRING网络支持的边(绿边)重叠度更高,提示晚期疾病中存在涉及蛋白质-蛋白质的保守疾病相关调控通路。基因本体(Gene Ontology, GO)富集分析和KEGG通路富集分析揭示早期模型富集细胞分化和DNA损伤修复相关词条,晚期模型富集细胞侵袭和转移相关词条,亚型特异性模型富集免疫微环境调控相关词条,这些保守和差异特征确认了SIGMA捕获情境特异性调控模式的能力。

研究讨论与结论部分,研究人员开发的自监督学习框架SIGMA解决了GRN推断中的不可靠标注质量、模型更新导致的变异性以及模型迁移性不足等挑战。通过捕获TF-靶点对内在关联特征的自监督任务,SIGMA显著提升了性能,不仅无需高质量标注,还确保了跨模型迭代的一致性。在BEELINE基准数据集上的综合分析表明,SIGMA在所有测试场景中均优于其他方法。在乳腺癌中的应用识别出作为网络枢纽的关键基因,并揭示了经比较分析验证的新调控关系,GO和KEGG通路富集分析揭示与乳腺癌治疗相关的生物学相关词条,展示了SIGMA检索已建立基因相互作用和识别先前未知调控基因及模式的能力。然而,当前模型仍无法完全规避"未确认"标注被判定为负面的限制,SIGMA仅能缓解此问题,研究人员未来将聚焦于此并尝试解决。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号