MixedBayes: 一个用于纵向基因–环境交互分析的R包,采用稳健稀疏贝叶斯混合模型

《Entropy》:MixedBayes: An R Package for Longitudinal Gene–Environment Interaction Analysis Using Robust Sparse Bayesian Mixed Models

【字体: 时间:2026年06月11日 来源:Entropy 2

编辑推荐:

  稳健变量选择方法已成为剖析纵向研究中高维基因–环境交互作用的强大工具,因其能够适应簇内相关性、捕捉结构化稀疏性以及处理重尾重复测量。尽管具有这些优势,基于变量选择的交互分析仍缺乏有效的推断工具来量化重要基因–环境交互作用的不确定性。本文介绍R包mixedBay

  
稳健变量选择方法已成为剖析纵向研究中高维基因–环境交互作用的强大工具,因其能够适应簇内相关性、捕捉结构化稀疏性以及处理重尾重复测量。尽管具有这些优势,基于变量选择的交互分析仍缺乏有效的推断工具来量化重要基因–环境交互作用的不确定性。本文介绍R包mixedBayes(版本0.2.5),该包实现了近期研究中提出的完全贝叶斯稳健混合效应模型,用于高维纵向基因–环境交互分析。具体而言,该包考虑了两类主要的混合模型。第一类模型处理组学特征与处理效应之间的交互作用,这些交互作用来源于具有高维遗传因子的重复测量单因素方差分析。第二类模型提供了一个更通用的框架,用于建模个体遗传主效应与环境因子之间的交互作用。两类模型均通过马尔可夫链蒙特卡洛(MCMC)进行后验贝叶斯推断。研究人员提供了详细的数值示例及配套R代码,以促进使用mixedBayes进行稳健交互分析。此外,还基于纵向哮喘数据(包含高维SNP测量)进行了案例研究。
以下是根据论文内容撰写的解读文章:

## 研究背景与问题
基因–环境(G×E)交互分析是理解复杂疾病遗传机制的关键环节,在高维遗传因素(如单核苷酸多态性)背景下,常借助惩罚变量选择方法进行。然而,传统惩罚方法在统计推断方面存在明显不足:它们难以提供置信区间、p值和错误发现率(FDR)等不确定性量化指标。这一问题在纵向研究设计中更为突出,因为表型响应和组学预测因子随时间重复测量,需要建模簇内相关性。尽管已有一些频率学派方法试图解决高维纵向数据的推断问题,但它们通常假设高斯误差,对异常值敏感,且性能受限。为此,研究人员提出了稳健的完全贝叶斯方法,利用非对称拉普拉斯分布(ALD)和spike-and-slab先验,以实现变量选择和后验推断。基于此,Fan等(2025)和Li等(2025)分别开发了两类稳健贝叶斯混合效应模型,并在R包mixedBayes中实现,该包已发布在CRAN上。

## 研究内容与结论
mixedBayes包(版本0.2.5)实现了用于纵向G×E交互分析的两类主要模型。第一类模型(双水平分位数混合效应模型)适用于重复测量单因素方差分析框架,其中环境因素为分类处理变量,G×E交互具有组级结构;第二类模型(FDR辅助稳健稀疏线性混合模型)则适用于更一般的设置,环境因素可为连续变量,所有主效应和交互效应均在个体水平建模。两类模型均采用基于ALD的稳健似然函数,并通过spike-and-slab先验实现精确稀疏性,利用MCMC进行后验抽样。变量选择依据中位概率模型(MPM)或贝叶斯FDR自适应阈值完成。模拟研究表明,在重尾误差(如t分布)下,mixedBayes能够有效识别重要主效应和交互效应,并控制FDR在标称水平。在CAMP哮喘纵向数据(包含150个SNP)的案例研究中,该方法识别出具有潜在生物学意义的SNP(如rs718100和rs13339155)及其与治疗的交互作用。论文发表在《Entropy》。

## 主要技术方法
研究人员采用以下关键技术方法:(1)基于非对称拉普拉斯分布(ALD)构建稳健似然函数,以处理重尾或异常值;(2)对主效应和交互效应使用结构化spike-and-slab先验,实现个体水平或组水平的稀疏选择;(3)通过Gibbs采样器进行MCMC后验抽样,算法在C++中实现以确保计算效率;(4)变量选择标准包括中位概率模型(MPM)和贝叶斯FDR自适应阈值;(5)提供预测函数,基于后验中位数计算均绝对误差(MAE)或均方误差(MSE)。案例研究数据来自儿童哮喘管理项目(CAMP),可通过dbGaP(编号phs000166.v2.p1)申请。

## 研究结果

### 4.1 贝叶斯正则化分位数混合模型下的双水平建模
通过数值模拟生成具有100个遗传因子、3个环境因子(分类处理变量)和5个时间点的数据集(n=200),误差来自t分布。使用mixedBayes在50%分位数水平下拟合双水平分位数混合模型,采用spike-and-slab先验和MPM进行变量选择。结果显示,在22个真实效应(4个主效应、18个交互效应)中,正确识别了19个(真阳性19,假阳性未报告具体数值)。估计精度通过总均绝对偏差(TMAD)、信号均绝对偏差(MAD)和噪声均绝对偏差(NMAD)评估。预测误差以MAE衡量。计算时间报告显示,当n=200、总维度403时,10,000次MCMC迭代耗时约数秒至数十秒。收敛诊断采用潜在尺度缩减因子(PSRF),所有非零系数的PSRF均趋近1,低于1.1阈值,有效样本量(ESS)显示采样充分。

### 4.2 稳健线性混合模型下基于贝叶斯FDR的识别
模拟生成具有100个遗传因子、3个连续环境因子(来自多元正态分布)和5个时间点的数据(n=200)。在400个待选效应中,存在8个遗传主效应和12个交互效应。采用稳健线性混合模型(模型3),通过spike-and-slab先验和贝叶斯FDR(目标水平0.05)进行变量选择。结果表明,贝叶斯FDR程序能有效控制总体假阳性比例接近预设定水平,并实现满意的识别性能。

### 5. 案例研究:CAMP哮喘数据
分析来自CAMP研究的纵向FEV1测量(12次治疗后访视),包含三种治疗方案(布地奈德、奈多罗米、安慰剂)。遗传因子为高维SNP,选取150个SNP进行分析。采用稳健贝叶斯双水平选择方法(随机截距-斜率模型),识别出若干SNP主效应和SNP-治疗交互效应(如表4所示)。其中,位于ILVBL基因区域的rs718100此前在哮喘患者的阿司匹林加重性呼吸系统疾病(AERD)中被研究过;位于WWOX基因附近的rs13339155与肿瘤抑制和肺癌发展相关。这些发现表明该方法能识别潜在有意义的遗传标记和G×E交互作用。

## 总结与讨论
讨论部分指出,尽管mixedBayes包在纵向高维交互分析中提供了独特的稳健推断能力(填补了现有R包在同时处理变量选择、交互分析和稳健推断方面的空白),但它存在若干局限性。当前版本假设所有受试者具有相同数量重复测量,无法处理不规则观测时间或缺失数据;仅响应变量为纵向,遗传和环境因子视为时间不变。此外,该包仅关注线性G×E交互,而非线性交互扩展可在R包Blend(版本0.1.2)中获得。未来更新将解决这些限制,并可能探索使用近似贝叶斯计算方法替代MCMC。

研究结论可翻译为:本文介绍了R包mixedBayes,该包实现了Fan等(2025)和Li等(2025)提出的纵向基因–环境交互分析方法。有限的软件综述及表1表明,尽管已有众多用于变量选择和低维纵向分析(涵盖频率学派和贝叶斯框架)的R包,但能同时完成这两项任务的包相对较少。特别地,由于高维设置下稳健推断的挑战,mixedBayes是少数能为高维纵向研究提供稳健统计推断的R包之一。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号