MixedBayes: 一个用于纵向基因–环境交互分析的R包，采用稳健稀疏贝叶斯混合模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Entropy》：MixedBayes: An R Package for Longitudinal Gene–Environment Interaction Analysis Using Robust Sparse Bayesian Mixed Models

【字体：大中小】 时间：2026年06月11日 来源：Entropy 2

编辑推荐：

　　稳健变量选择方法已成为剖析纵向研究中高维基因–环境交互作用的强大工具，因其能够适应簇内相关性、捕捉结构化稀疏性以及处理重尾重复测量。尽管具有这些优势，基于变量选择的交互分析仍缺乏有效的推断工具来量化重要基因–环境交互作用的不确定性。本文介绍R包mixedBay

稳健变量选择方法已成为剖析纵向研究中高维基因–环境交互作用的强大工具，因其能够适应簇内相关性、捕捉结构化稀疏性以及处理重尾重复测量。尽管具有这些优势，基于变量选择的交互分析仍缺乏有效的推断工具来量化重要基因–环境交互作用的不确定性。本文介绍R包mixedBayes（版本0.2.5），该包实现了近期研究中提出的完全贝叶斯稳健混合效应模型，用于高维纵向基因–环境交互分析。具体而言，该包考虑了两类主要的混合模型。第一类模型处理组学特征与处理效应之间的交互作用，这些交互作用来源于具有高维遗传因子的重复测量单因素方差分析。第二类模型提供了一个更通用的框架，用于建模个体遗传主效应与环境因子之间的交互作用。两类模型均通过马尔可夫链蒙特卡洛（MCMC）进行后验贝叶斯推断。研究人员提供了详细的数值示例及配套R代码，以促进使用mixedBayes进行稳健交互分析。此外，还基于纵向哮喘数据（包含高维SNP测量）进行了案例研究。

以下是根据论文内容撰写的解读文章：

## 研究背景与问题
基因–环境（G×E）交互分析是理解复杂疾病遗传机制的关键环节，在高维遗传因素（如单核苷酸多态性）背景下，常借助惩罚变量选择方法进行。然而，传统惩罚方法在统计推断方面存在明显不足：它们难以提供置信区间、p值和错误发现率（FDR）等不确定性量化指标。这一问题在纵向研究设计中更为突出，因为表型响应和组学预测因子随时间重复测量，需要建模簇内相关性。尽管已有一些频率学派方法试图解决高维纵向数据的推断问题，但它们通常假设高斯误差，对异常值敏感，且性能受限。为此，研究人员提出了稳健的完全贝叶斯方法，利用非对称拉普拉斯分布（ALD）和spike-and-slab先验，以实现变量选择和后验推断。基于此，Fan等（2025）和Li等（2025）分别开发了两类稳健贝叶斯混合效应模型，并在R包mixedBayes中实现，该包已发布在CRAN上。

## 研究内容与结论
mixedBayes包（版本0.2.5）实现了用于纵向G×E交互分析的两类主要模型。第一类模型（双水平分位数混合效应模型）适用于重复测量单因素方差分析框架，其中环境因素为分类处理变量，G×E交互具有组级结构；第二类模型（FDR辅助稳健稀疏线性混合模型）则适用于更一般的设置，环境因素可为连续变量，所有主效应和交互效应均在个体水平建模。两类模型均采用基于ALD的稳健似然函数，并通过spike-and-slab先验实现精确稀疏性，利用MCMC进行后验抽样。变量选择依据中位概率模型（MPM）或贝叶斯FDR自适应阈值完成。模拟研究表明，在重尾误差（如t分布）下，mixedBayes能够有效识别重要主效应和交互效应，并控制FDR在标称水平。在CAMP哮喘纵向数据（包含150个SNP）的案例研究中，该方法识别出具有潜在生物学意义的SNP（如rs718100和rs13339155）及其与治疗的交互作用。论文发表在《Entropy》。

## 主要技术方法
研究人员采用以下关键技术方法：（1）基于非对称拉普拉斯分布（ALD）构建稳健似然函数，以处理重尾或异常值；（2）对主效应和交互效应使用结构化spike-and-slab先验，实现个体水平或组水平的稀疏选择；（3）通过Gibbs采样器进行MCMC后验抽样，算法在C++中实现以确保计算效率；（4）变量选择标准包括中位概率模型（MPM）和贝叶斯FDR自适应阈值；（5）提供预测函数，基于后验中位数计算均绝对误差（MAE）或均方误差（MSE）。案例研究数据来自儿童哮喘管理项目（CAMP），可通过dbGaP（编号phs000166.v2.p1）申请。

## 研究结果

### 4.1 贝叶斯正则化分位数混合模型下的双水平建模
通过数值模拟生成具有100个遗传因子、3个环境因子（分类处理变量）和5个时间点的数据集（n=200），误差来自t分布。使用mixedBayes在50%分位数水平下拟合双水平分位数混合模型，采用spike-and-slab先验和MPM进行变量选择。结果显示，在22个真实效应（4个主效应、18个交互效应）中，正确识别了19个（真阳性19，假阳性未报告具体数值）。估计精度通过总均绝对偏差（TMAD）、信号均绝对偏差（MAD）和噪声均绝对偏差（NMAD）评估。预测误差以MAE衡量。计算时间报告显示，当n=200、总维度403时，10,000次MCMC迭代耗时约数秒至数十秒。收敛诊断采用潜在尺度缩减因子（PSRF），所有非零系数的PSRF均趋近1，低于1.1阈值，有效样本量（ESS）显示采样充分。

### 4.2 稳健线性混合模型下基于贝叶斯FDR的识别
模拟生成具有100个遗传因子、3个连续环境因子（来自多元正态分布）和5个时间点的数据（n=200）。在400个待选效应中，存在8个遗传主效应和12个交互效应。采用稳健线性混合模型（模型3），通过spike-and-slab先验和贝叶斯FDR（目标水平0.05）进行变量选择。结果表明，贝叶斯FDR程序能有效控制总体假阳性比例接近预设定水平，并实现满意的识别性能。

### 5. 案例研究：CAMP哮喘数据
分析来自CAMP研究的纵向FEV1测量（12次治疗后访视），包含三种治疗方案（布地奈德、奈多罗米、安慰剂）。遗传因子为高维SNP，选取150个SNP进行分析。采用稳健贝叶斯双水平选择方法（随机截距-斜率模型），识别出若干SNP主效应和SNP-治疗交互效应（如表4所示）。其中，位于ILVBL基因区域的rs718100此前在哮喘患者的阿司匹林加重性呼吸系统疾病（AERD）中被研究过；位于WWOX基因附近的rs13339155与肿瘤抑制和肺癌发展相关。这些发现表明该方法能识别潜在有意义的遗传标记和G×E交互作用。

## 总结与讨论
讨论部分指出，尽管mixedBayes包在纵向高维交互分析中提供了独特的稳健推断能力（填补了现有R包在同时处理变量选择、交互分析和稳健推断方面的空白），但它存在若干局限性。当前版本假设所有受试者具有相同数量重复测量，无法处理不规则观测时间或缺失数据；仅响应变量为纵向，遗传和环境因子视为时间不变。此外，该包仅关注线性G×E交互，而非线性交互扩展可在R包Blend（版本0.1.2）中获得。未来更新将解决这些限制，并可能探索使用近似贝叶斯计算方法替代MCMC。

研究结论可翻译为：本文介绍了R包mixedBayes，该包实现了Fan等（2025）和Li等（2025）提出的纵向基因–环境交互分析方法。有限的软件综述及表1表明，尽管已有众多用于变量选择和低维纵向分析（涵盖频率学派和贝叶斯框架）的R包，但能同时完成这两项任务的包相对较少。特别地，由于高维设置下稳健推断的挑战，mixedBayes是少数能为高维纵向研究提供稳健统计推断的R包之一。

联系信箱：

粤ICP备09063491号

热点排行