综述：呼吸系统疾病检测：人工智能方法的系统性综述——从音频与视觉单模态到多模态融合

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Diagnostics》：Respiratory Disease Detection: A Systematic Review of AI-Based Approaches, from Audio and Visual Unimodal Methods to Multimodal Integration

【字体：大中小】 时间：2026年06月18日 来源：Diagnostics 3.3

编辑推荐：

　　背景：呼吸系统疾病（Respiratory Diseases, RDs），包括哮喘（asthma）、新型冠状病毒肺炎（Coronavirus Disease 2019, COVID-19）、慢性阻塞性肺疾病（Chronic Obstructive Pulmon

背景：呼吸系统疾病（Respiratory Diseases, RDs），包括哮喘（asthma）、新型冠状病毒肺炎（Coronavirus Disease 2019, COVID-19）、慢性阻塞性肺疾病（Chronic Obstructive Pulmonary Disease, COPD）及肺炎（pneumonia），仍是全球重大健康挑战，在全球发病率与死亡率中占比显著。传统诊断高度依赖临床医师解读呼吸音与放射影像，存在主观性强、耗时长及观察者间差异大等问题。近年来人工智能（Artificial Intelligence, AI）与机器学习（Machine Learning, ML）的发展推动了自动化诊断方法的进步，可提升呼吸系统疾病检测的效率、一致性与可扩展性。然而现有研究在不同数据模态间仍呈碎片化分布。方法：本综述系统分析近期基于AI的呼吸系统疾病检测研究，涵盖视觉模态（如胸部X线Chest X-ray, CXR、计算机断层扫描Computed Tomography, CT、超声Ultrasound, US）与音频模态（如咳嗽音、呼吸音）。为提供全面视角，研究人员采用统一分类法将现有方法分为三类：基于音频的方法、基于视觉的方法及视听融合方法。此外，研究人员提出两个概念框架，分别展示基于音频与基于视觉的呼吸系统疾病分类典型流程。结果：分析显示，多数现有研究聚焦于单模态方法，多模态融合仍处于相对探索不足阶段。仅少数研究在同一框架内结合音频与视觉数据，主要限制在于来自同一患者的同步多模态数据集稀缺。所提出的分类法与概念框架为比较现有方法、识别方法学趋势及明确多模态呼吸系统疾病检测的关键研究空白提供了结构化基础。结论：未来研究应优先构建多模态数据集、稳健的评估方案及适用于真实临床部署的可解释轻量化AI模型。推进多模态融合有望显著提升AI驱动的呼吸系统疾病诊断系统的准确性、可靠性与临床适用性。

1.
引言

呼吸系统疾病（RDs）的诊断与流行构成重大全球健康负担，每年导致数百万病例与死亡。截至2026年2月8日，世界卫生组织报告COVID-19已造成7,109,667例全球死亡，凸显疫情持续影响。2024年11月发布的《全球结核病报告》显示，约820万人确诊结核病（Tuberculosis, TB），为1995年全球结核病监测启动以来最高纪录。肺炎仍是五岁以下儿童主要死因，占该年龄组总死亡的14%，全球报告死亡740,180例。这些数据强调亟需有效的预防与治疗策略应对公共卫生挑战。

呼吸系统疾病诊断主要依赖临床方法与计算机辅助技术两类途径。临床方法包含传统体格检查、病史评估与组织病理学图像分析；计算机辅助技术则利用音频与视觉模态处理呼吸音与影像以实现诊断。音频与视觉模态在呼吸系统疾病诊疗中至关重要，机器学习（ML）与深度学习（Deep Learning, DL）的融入显著提升了效能。音频模态如咳嗽分析可通过独特声学特征识别哮喘、肺炎或COVID-19；喘鸣音（wheezes）与湿啰音（crackles）可经呼吸音记录结合DL方法有效诊断哮喘、COPD、肺纤维化或肺炎。视觉模态则采用成像技术：胸部X线（CXR）用于检测实变或积液等结构异常，CT扫描提供肺部横断面细节以识别结节、肺气肿或间质性肺病。基于这些声学与影像模态训练的ML与DL模型已在肺部疾病检测分类中实现高精度，显著增强诊断能力。

数据集是开发ML与DL模型的核心资源，其选择直接影响模型的泛化能力与准确性。公开数据集促进开放协作与基准测试，推动创新与可复现性；私有数据集虽细节丰富但限制广泛合作。代表性公开数据集包括NIH胸部X线数据库与ICBHI 2017挑战赛数据库。

现有综述多单独聚焦音频或视觉模态，缺乏跨模态的系统整合。本综述首次在单一研究中系统覆盖音频、视觉及视听融合三类方法，引入统一分类法，提出音频与视觉概念框架，并明确研究空白与未来方向，为跨模态比较与多模态AI模型开发提供路线图。
2.
研究方法

本研究遵循系统综述首选报告项目（Preferred Reporting Items for Systematic Reviews and Meta-Analyses, PRISMA）协议。数据源选取Scopus与Web of Science（WoS）作为主要检索库，辅以Google Scholar补充检索，覆盖IEEE Xplore、ScienceDirect、Springer等出版平台的同行评审文献。

数据提取按音频、视觉、视听融合三类模态划分，采用布尔运算符组合关键词，提取研究涉及的呼吸系统疾病类型、数据集特征、模态类型、预处理与特征提取技术、ML/DL模型及评估指标，并以表格形式系统整理。检索时间限定为2020年至2025年，聚焦COVID-19疫情后AI在医疗领域的快速发展阶段，仅纳入英文同行评审期刊论文以排除初步会议成果。

研究筛选流程分为识别、筛选、合格性与纳入四个步骤，初检获得603篇文献，去重后剩余323篇，经摘要与全文评审最终纳入45项研究，其中音频模态18项、视觉模态20项、视听融合7项。研究人员通过数据集质量、验证策略、报告透明度等指标评估证据确定性，采用定性叙述结合表格比较与分类法汇总结果。
3.
呼吸系统疾病检测中的音频与视觉模态

音频模态以麦克风或专用听诊器采集的咳嗽、呼吸音、湿啰音、喘鸣音及语音为基础，通常提取梅尔频率倒谱系数（Mel-Frequency Cepstral Coefficients, MFCCs）、频谱图等时频特征，捕捉信号的光谱与时间特性，实现哮喘、COVID-19、肺炎的非侵入性诊断。视觉模态包括CXR、CT与US，常用卷积神经网络（Convolutional Neural Networks, CNNs）实现自动特征提取与疾病分类。CXR与便携式US成本低、可及性高，适合广泛应用；CT分辨率高但设备昂贵、便携性差，需专业设施支持。两类模态优势互补，结合AI算法可提升临床与远程医疗场景下的早期检测、监测与治疗水平。
4.
音频与视觉模态呼吸系统疾病检测的分类法

分类法从四个维度组织现有研究：学习方法中区分传统ML、DL（直接使用、微调或从头训练）及集成模型；疾病应用方面，COVID-19多依托音频（咳嗽音）或视觉（CXR）数据，结核与肺炎多使用CXR与CT，哮喘与COPD多依赖音频（喘鸣与湿啰音）；数据集部分详述常用音频（如ICBHI、Coswara、COUGHVID）与视觉（如NIH Chest X-ray、SARS-CoV-2 CT-Scan）数据集的优势与局限；评估指标涵盖准确率（Accuracy, Acc）、精确率（Precision）、召回率/灵敏度（Recall/Sensitivity）、特异度（Specificity）、F1分数及受试者工作特征曲线下面积（Area Under the Receiver Operating Characteristic Curve, AUC）。
5.
音频模态

5.1 学习方法

音频分析流程包括数据准备、特征提取与分类。预处理采用有限脉冲响应（Finite Impulse Response, FIR）滤波、带通滤波、16–48 kHz采样、贝叶斯信息准则（Bayesian Information Criterion, BIC）分段及归一化。特征工程分为手工特征与深度特征：手工特征含频谱分析（小波变换Wavelet Transform, WT、频谱质心、梅尔频谱图）与倒谱分析（MFCCs）；深度特征借助预训练模型（如VGGish）自动学习层次化表示。特征选择与降维采用前向特征选择（Forward Feature Selection, FFS）、最小冗余最大相关（minimum Redundancy Maximum Relevance, mRMR）与主成分分析（Principal Component Analysis, PCA）。分类模型涵盖传统ML（支持向量机Support Vector Machine, SVM、随机森林Random Forest, RF等）、DL（CNN、循环神经网络Recurrent Neural Networks, RNN、长短期记忆网络Long Short-Term Memory, LSTM、迁移学习模型DenseNet201、InceptionV3、ResNet）及集成方法（投票分类器）。

5.2 应用

COVID-19检测为最主要应用，多项研究利用咳嗽、呼吸与语音音频实现快速初筛；哮喘检测通过呼吸音分析区分疾病分期，并结合TinyML实现低功耗设备部署；COPD检测基于喘鸣与湿啰音分析实现早期诊断；肺炎检测利用儿童咳嗽音区分肺炎与支气管炎；多疾病分类研究则同时识别哮喘、肺炎、上下呼吸道感染及COPD。

5.3 数据集

常用公开音频数据集包括ICBHI 2017、Coswara、Virufy、Covid19-Cough、NeurIPS、COUGHVID、KAUH、DiCOVA、Sarcos、SPRSound及华西第二医院数据集，覆盖成人及儿童多类呼吸系统疾病，样本量与标注质量各异。
6.
视觉模态

6.1 学习方法

视觉分析流程同样包含数据准备、特征工程与分类。预处理采用尺寸标准化、像素值归一化、对比度受限自适应直方图均衡化（Contrast-Limited Adaptive Histogram Equalization, CLAHE）、U-Net分割及翻转、旋转等数据增强。特征提取分为手工特征（WT、灰度共生矩阵Gray-Level Co-occurrence Matrix, GLCM、局部二值模式Local Binary Patterns, LBP等）与深度学习特征（预训练模型VGG19、ResNet50、InceptionV3、Xception、MobileNet及定制CNN）。

6.2 应用

COVID-19检测多采用CXR，部分研究结合CT与US，并提出轻量化模型适配移动端；肺炎检测聚焦CXR与CT，涵盖成人与儿童患者，部分模型可评估疾病严重程度；结核病检测主要基于CXR数据集，CT相关研究受限于数据可得性。

6.3 数据集

常用视觉数据集包括深圳数据集、蒙哥马利县CXR集、NIH Chest X-ray8、Kermany儿科CXR集、RSNA肺炎检测数据集、PadChest、卡塔尔大学TB数据库、COVIDx、COVID-19影像数据集、POCUS超声数据集、SARS-CoV-2 CT扫描数据集、COVID-19 CT扫描集、COVID-19放射数据库及2023年肺部X线影像数据集，涵盖不同成像模态与疾病类型。
7.
视听融合模态

7.1 学习方法

视听融合遵循类似单模态的流程，但在特征层或决策层进行整合。预处理包括图像分割（U形双Swin注意力Transformer U-shaped Dual Swin Attention Transformer, UDST）、各向异性扩散滤波及呼吸音降噪。特征提取可将音频转换为频谱图后用CNN处理，或直接提取MFCCs与手工视觉特征。分类阶段采用晚期融合（独立模型预测加权整合）或早期融合（联合特征训练单一模型）。

7.2 应用

现有研究主要聚焦COVID-19检测，仅一项2024年研究探索COPD检测，采用CT与呼吸信号融合框架。

7.3 数据集

目前缺乏同一患者的同步视听配对数据集，多数研究组合使用独立来源的公开音频与视觉数据集。
8.
评估指标

监督学习分类任务常用指标包括准确率、精确率、召回率、F1分数、特异度、混淆矩阵、AUC-ROC及马修斯相关系数（Matthews Correlation Coefficient, MCC）。准确率适用于总体性能评估，但在类别不平衡时局限性明显；精确率与召回率分别反映假阳性控制与正例识别能力；F1分数为二者调和均值；特异度衡量负例识别能力；AUC-ROC提供阈值无关的整体判别力评估；MCC在类别不平衡时提供更稳健的综合度量。
9.
挑战与未来方向

9.1 挑战

主要限制包括同步多模态数据集稀缺、样本量小、标注成本高、类别不平衡、验证不充分、数据集人口偏倚、评估层级（图像级、记录级、患者级）不统一、方法学异质性高、临床验证缺失、模型可解释性不足、计算资源要求高及监管审批障碍。此外，现有研究过度集中于COVID-19，对其他呼吸系统疾病覆盖不足。

9.2 未来方向

未来应建立高质量标注数据采集规范，推动IT、AI与临床多学科协作；优先发展同步多模态数据集；提升模型可解释性（如注意力机制、Grad-CAM）；结合传统信号处理与DL的混合方法；完善临床验证与监管合规路径，推动AI系统在真实医疗环境中的安全部署。
10.
结论

本综述系统分析45项研究，覆盖近五年音频、视觉及视听融合三类呼吸系统疾病AI检测方法。COVID-19疫情显著影响研究重心，DL模型在精度上普遍优于传统ML，但需更高计算资源。集成方法提升鲁棒性但增加复杂度。多模态数据集的缺乏是当前核心瓶颈。未来应通过多模态融合、标准化评估与临床验证，推动更准确、可解释且可部署的AI诊断系统发展，最终改善呼吸系统疾病的早期检测与管理。

联系信箱：

粤ICP备09063491号

热点排行