《Frontiers in Microbiology》:An approach for diagnosis of diarrhea in neonatal piglets based on the core gut microbiota and machine learning
编辑推荐:
由病原体或病毒引起的新生仔猪黄痢和白痢等腹泻性疾病,给全球养猪业带来了巨大的经济损失。腹泻仔猪常观察到肠道菌群失调,这被认为在疾病发病机制中发挥作用,尽管因果关系尚未确定。然而,开发可靠的基于微生物组的诊断工具仍然是一个重大挑战。本研究旨在通过整合核心微生物群
由病原体或病毒引起的新生仔猪黄痢和白痢等腹泻性疾病,给全球养猪业带来了巨大的经济损失。腹泻仔猪常观察到肠道菌群失调,这被认为在疾病发病机制中发挥作用,尽管因果关系尚未确定。然而,开发可靠的基于微生物组的诊断工具仍然是一个重大挑战。本研究旨在通过整合核心微生物群分析和机器学习,建立一种仔猪腹泻的诊断模型。对腹泻和健康仔猪的粪便样本进行宏基因组测序,以表征古菌、细菌和真菌群落。研究人员通过LEfSe(线性判别分析效应大小)、DESeq2和微生物共现网络分析,鉴定了与腹泻相关的细菌生物标志物。这些微生物特征被用于构建和比较多种机器学习分类器。结果显示,腹泻与健康仔猪之间的肠道菌群结构和多样性存在显著差异,其中细菌群落的变化最为显著。在开发的模型中,基于细菌属水平特征的决策树分类器达到了最高的预测准确率,为91.18%。此外,利用包含18个核心细菌属组合集的简化模型也表现出高效能,支持向量机模型的准确率达到88.24%。在使用内部数据集的独立验证中,随机森林模型表现出最佳的泛化性和稳定性。本研究建立了一种稳健的、基于微生物群的仔猪腹泻诊断模型,强调了机器学习在利用微生物组数据实现家畜生产疾病分类和健康管理方面的潜力。
论文解读:《Frontiers in Microbiology》发表基于核心肠道微生物群和机器学习的新生仔猪腹泻诊断研究
研究背景与意义
新生仔猪腹泻是商业养猪生产中一个经济破坏性极大的问题,由病原微生物或病毒感染引起的腹泻会导致死亡率增加,并对动物福利、生长性能和农场盈利能力产生不利影响。肠道微生物群作为宿主健康不可或缺的复杂生态系统,在营养代谢、免疫系统发育和抵御病原体方面发挥着关键作用。因此,维持稳定的肠道微生物群落对于仔猪从出生到断奶的健康发育至关重要。尽管已有大量研究将腹泻与肠道微生物生态系统的深刻破坏联系起来,例如产肠毒素大肠杆菌(ETEC)感染会显著改变肠道菌群的结构和功能,但目前精确的主-微生物组相互作用和菌群失调驱动因素仍不清楚。一个主要的挑战在于如何从复杂的微生物组数据中提炼出可操作的生物标志物,并将其转化为可靠的诊断工具。虽然机器学习(ML)在解码高维生物学数据和人类医学诊断方面展现出卓越性能,但在利用多队列鸟枪法宏基因组数据专门建立断奶前仔猪腹泻诊断工具方面,尚无相关研究报道。本研究正是为了填补这一空白,旨在通过整合核心微生物群分析与机器学习,建立一种准确、稳健的仔猪腹泻诊断模型,为 livestock 生产的疾病分类和健康管理提供新思路。
主要关键技术方法
研究人员采用了一系列先进的计算与分析方法来构建和评估诊断模型。首先,研究整合了公共宏基因组数据集和自收集样本,公共数据用于模型训练和生物标志物发现,而自收集数据则作为独立验证集。所有原始读长均经过统一流程处理,包括质量控制、宿主DNA去除、分类学注释和丰度量化,以消除分析偏差。为进一步减少不同研究和测序批次间的技术变异,研究使用R语言“sva”包中的ComBat方法进行了批次效应校正,并将腹泻状态作为生物协变量纳入模型矩阵,以保留与疾病相关的微生物变异。在特征选择方面,研究人员保留了至少在70%公共训练集样本中存在的细菌属,并利用LEfSe(LDA分数阈值>2.5且p<0.01)和DESeq2(|log2倍数变化|>1.5且FDR<0.01)两种互补方法评估差异丰度,取两者交集作为稳健的差异属。随后,通过构建共现网络来评估这些差异属之间的稳定关联。最后,研究人员实施并比较了多种监督分类算法,包括随机森林(RF)、支持向量机(SVM)、逻辑回归(LR)、LASSO回归、朴素贝叶斯、K近邻(KNN)、决策树(DT)等,并使用10折交叉验证和网格搜索策略优化超参数,通过准确率、敏感性、特异性和ROC曲线下面积(AUC)等指标评估模型性能。
研究结果
3.1 腹泻仔猪与健康仔猪肠道菌群多样性和结构的差异
研究人员通过计算Chao1(丰富度)和香农(多样性)指数并进行Wilcoxon秩和检验,发现腹泻仔猪的细菌丰富度(Chao1指数)显著低于健康个体,而细菌多样性(香农指数)无显著差异。进一步的UMAP(均匀流形近似和投影)降维分析及基于Bray-Curtis距离的Adonis检验显示,腹泻仔猪与健康仔猪的细菌群落组成存在显著差异(Adonis R2=0.080, p<0.05)。同时,腹泻样本的群落结构离散度显著高于健康样本,表明腹泻伴随着更不稳定的肠道菌群结构。
3.2 腹泻仔猪与健康仔猪肠道群落组成的比较
在细菌组成方面,厚壁菌门(Firmicutes)和拟杆菌门(Bacteroidota)是优势门,合计占细菌群落的75%以上。Wilcoxon秩和检验表明,腹泻显著增加了拟杆菌门的相对丰度,但显著降低了厚壁菌门的相对丰度(p<0.05)。
3.3 机器学习预测模型的比较
研究人员使用ComBat校正后的微生物丰度矩阵进行所有机器学习分析。通过在不同测试集策略(合并集、Jie集、Kong集)上比较模型预测性能,最终确定Jie测试集(来自特定干预组的样本)为基准,因其提供了最平衡和稳健的性能(最高准确率为88.24%,由属水平支持向量机模型实现,其敏感性为83.33%,特异性为100%,AUC为0.917)。在Jie测试集上,各微生物域的最佳模型性能如下:古菌数据在纲水平的随机森林模型准确率最高,为85.29%;细菌数据在属水平的决策树模型表现最佳,预测准确率达91.18%;真菌数据在属水平的Bagging模型准确率最高,为91.18%。总体而言,基于细菌属水平特征的决策树分类器在仔猪腹泻预测中表现出最佳性能。
3.4 细菌生物标志物的分析
研究人员在健康组鉴定出112个显著相关的属,在腹泻组鉴定出62个。通过比较两组间相关性的显著性和方向,确定了23个具有稳定、方向一致相关性的属对,涉及20个属。去除2个未分类或未定义的属后,保留18个属用于后续分析。相比之下,两个简单的单变量指标(F/B比值和腹泻指数)的预测性能(最佳准确率73.53%)远低于机器学习分类器。
3.5 独立验证数据上机器学习模型的准确性
在本地生成的独立数据集上评估模型稳健性和实用性至关重要。结果显示,尽管支持向量机在独立测试集上表现良好,但其预测分数在公共和内部数据集之间存在显著差异,表明其在不同数据源间的稳定性较差。逻辑回归、LASSO回归、随机森林和KNN在独立数据集上也表现良好。值得注意的是,KNN的AUC在内部数据集中变化较大,表明性能不稳定。逻辑回归和LASSO回归结果相似,它们在内部数据集上的AUC略低于随机森林,但仍高于在公共数据衍生的测试集上获得的AUC。在基于树的集成模型中,随机森林模型取得了最高的AUC值,并且在内部和公共数据集之间的性能差异最小,显示出高度的稳定性。F/B指数在所有模型中表现最差,尽管其值在不同数据集间一致,表明稳定性好但判别力差。总体而言,随机森林、逻辑回归和LASSO模型在判别能力和稳定性之间表现出良好的平衡。特别是随机森林模型,随着风险水平降低,健康仔猪的比例逐渐增加,显示出可靠的预测能力。基于此,研究人员提出可将随机森林模型的警报阈值设定为内部样本分数的中位数(0.54),分数低于此阈值的仔猪腹泻概率为93%,高于此阈值的概率降至30%。
讨论与结论总结
讨论部分指出,腹泻可能导致肠道菌群生态位重构和波动增加。虽然F/B比值是评估肠道稳态的常用指标,但在应用于仔猪健康评估时需谨慎,因其并非单向指标,应结合其他指标综合判断。研究通过将“单一标记物”提升到“核心菌群网络”的分析层面,利用三种独立方法(LEfSe、DESeq2、网络分析)识别潜在核心属,增强了稳定性和可重复性,并揭示了微生物网络的动态变化。核心属在肠道失衡和炎症反应中发挥重要作用,例如ETEC可破坏电解质平衡,梭杆菌属被认为是促炎微生物。此外,腹泻组整体相关性较弱,暗示环境扰动或病原体入侵后微生物群落的不稳定。决策树分类器的高性能可能归因于微生物群落固有的层次结构,而随机森林模型在不同数据集间性能下降最小,体现了集成学习的优势。与以往主要关注断奶仔猪16S rRNA数据的研究相比,本研究使用鸟枪法宏基因组数据在完全独立的农场数据集上实现了91.18%的准确率,表明其可能提供更稳健的特征。然而,研究也指出了局限性,包括自收集验证队列样本量小(尤其是健康对照少)、公共数据集异质性、横断面设计无法确定因果关系、网络分析的技术限制以及模型验证范围有限等。未来需要更大规模、多中心的研究来确认生物标志物的稳健性。
结论部分重申,本研究通过建立基于肠道菌群特征和机器学习的可靠框架,为新生仔猪腹泻诊断提供了概念验证。随机森林模型在独立验证中脱颖而出,成为最稳健和可推广的分类器,展现出在养殖生产中实际部署的巨大潜力。研究成果强调了机器学习在利用微生物组数据实现家畜疾病分类和健康管理方面的应用前景。