基于可学习频谱图的音频目标检测呼吸频率估计

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Sciences》：Respiratory Rate Estimation from Audio Using Object Detection with Learnable Spectrograms

【字体：大中小】 时间：2026年06月19日 来源：Applied Sciences 2.5

编辑推荐：

　　本研究提出一种表征增强神经成像（Representation Enhancement for Neural Imaging, RENI)框架，该框架将改进的You Only Look Once (YOLO)目标检测头与基于nnAudio实现的可学习频谱图前端相

本研究提出一种表征增强神经成像（Representation Enhancement for Neural Imaging, RENI)框架，该框架将改进的You Only Look Once (YOLO)目标检测头与基于nnAudio实现的可学习频谱图前端相结合。该前端支持GPU加速的波形-频谱图转换，同时允许短时傅里叶变换(Short-Time Fourier Transform, STFT)和Mel尺度基函数的适应性学习。模型针对44.1 kHz运动期间采集音频的呼吸相位定位和呼吸频率估计进行训练。结果表明，相较于静态配置及可学习STFT配置，可学习Mel表征提升了呼吸频率估计精度，达到了1.15次/分钟的平均绝对误差(mean absolute error, MAE)。Bootstrap 95%置信区间(one-side permutation test, 单侧置换检验)显示，在最小化MAE(min-MAE)置信度阈值策略下，选定可学习STFT与Mel配置具有统计学显著性提升，而综合效应方向仍有利于可学习Mel前端。这些发现证明了在所研究条件下基于呼气的呼吸频率估计得到改善，但更广泛的外部验证仍有待开展。

该研究发表于《Applied Sciences》，旨在解决运动场景下呼吸监测的技术挑战。运动过程中的呼吸频率及吸气相、呼气相持续时间是反映机体生理状态的重要监测参数，可提示心理与身体状况，特定呼吸模式甚至可能增加肌肉骨骼损伤风险。然而，现有技术如光电容积描记法(photoplethysmography, PPG)在静息状态下表现良好，但运动时易受运动伪影干扰；胸带测量法则因运动期间非呼吸性胸廓形变而难以区分呼吸相位。面罩式肺活量计虽为金标准，但运动中使用不便且舒适度差。从音频信号提取呼吸信息成为有前景的方向——运动中的呼吸声可被人耳感知，且诸多运动员使用耳机，为音频采集提供了便利。现有音频方法多依赖信号滤波、受控录制环境，或仅评估呼吸频率估计精度，在体育运动典型噪声环境下性能易下降，且未充分评估呼吸相位持续时间的测定精度。此外，公开数据匮乏：多数公开数据集面向临床异常检测，采用数字听诊器录制，与运动场景外置麦克风的传感器特性及噪声源差异显著；且多标注完整呼吸周期而非独立时间戳呼吸相位事件。上述局限促使研究人员开展此项研究，以期开发能从真实条件外置麦克风录音中鲁棒检测呼吸事件的方法。

本研究纳入两支来源队列：训练集约1小时、两名个体的音频，覆盖10.0至45.0次/分钟呼吸频率范围，含约3000个标注呼吸相位；经时移增强后扩展至约12000个事件。独立测试集约34分钟、六名参与者，涵盖13至60次/分钟呼吸频率，包含实验室静息及嘈杂健身房跑步场景，实现受试者间独立评估。

在技术方法层面，研究采用nnAudio库实现可学习频谱图前端，将固定频谱图改写为神经网络层形式，使STFT通过一维卷积核模拟正弦基函数、Mel频谱图通过对应Mel滤波器组的线性变换实现，二者均可训练以适应目标任务。后接修改版YOLOv11单阶段目标检测器，适配单通道灰度频谱图输入，将呼吸相位视为时间轴上准周期性事件进行定位。研究对比三种频谱图配置：静态配置、可学习STFT配置及可学习Mel配置。后处理方面，研究提出两种置信度阈值策略：基于精确率-召回率(Precision-Recall, PR)曲线交点的标准目标检测阈值策略，以及面向任务优化的最小化MAE阈值策略，并以类特定方式分别应用于吸气和呼气事件。

关于研究结果，频谱图表征分析显示：可学习Mel前端产生的结构化特征适应性最强，表现为特定Mel频带增强或衰减，形成清晰的呼吸事件暗纹；可学习STFT与静态基线差异较小。事件检测与呼吸频率误差分析表明：呼气事件检测F1分数显著高于吸气事件（PR交点阈值策略下差值0.2634，min-MAE策略下差值0.3069），呈现明显的不对称性。基于此，呼气追踪成为主要操作模式。

在不同阈值策略下，PR交点阈值策略中三种频谱图配置MAE均低于2次/分钟，可学习STFT相对静态前端改善有限（1.93 vs 1.98次/分钟），可学习Mel降低约0.5次/分钟。min-MAE阈值策略下效果更显著：静态基线MAE升高至2.6次/分钟，可学习STFT和可学习Mel分别降至1.69和1.15次/分钟。活动条件特异性分析显示，静息记录MAE普遍低于跑步场景；min-MAE阈值下，可学习Mel在静息时仅0.77次/分钟，跑步时2.15次/分钟。

多次重复训练统计一致性方面，Bootstrap 95%置信区间分析显示：PR交点阈值下所有批次区间均跨零；min-MAE阈值下，可学习Mel在批次大小16（CI: [-6.45, -0.62]）和64（CI: [-3.57, -0.19]）及可学习STFT在批次大小64（CI: [-4.27, -0.44]）获得完全负值区间。综合所有批次，仅可学习Mel配min-MAE保持完全负值区间（CI: [-5.64, -0.42]），中位改善3.06次/分钟。单侧置换检验中，min-MAE阈值下可学习STFT和可学习Mel在批次大小64均低于0.05（p=0.048和p=0.043），可学习Mel在批次大小16亦显著（p=0.028）；综合层面，可学习Mel配min-MAE接近显著性边界（p=0.058）。

讨论部分指出，Mel滤波器权重重分配是可学习前端改善的主要来源；呼气检测优于吸气源于吸气在不同呼吸频率和负荷下声学变异性更大。跑步场景难度大干静息场景为已知局限。统计证据的配置依赖性提示结论应解读为稳健趋势而非普适改进。研究局限性包括：样本量与人口学覆盖有限，外部可迁移性尚处初步阶段；缺乏显式信噪比控制下的鲁棒性基准；单一采集流程的证据强度不足；未进行端到端嵌入式实时基准验证。

研究结论方面，研究人员提出将基于图像的目标检测头（YOLO）适配于声音事件检测的呼吸频率估计框架，将呼吸相位视为频谱图上的时间局域化对象进行处理。通过nnAudio集成原始波形-频谱图张量转换，实现端到端可训练前端，STFT核或Mel滤波器组可通过反向传播优化，从而强调呼吸相关频率区域并减少手动频谱图超参数调优需求。模型架构与自定义标注音频数据集已公开。在各评估前端中，可学习Mel表征提供最准确的呼吸频率估计，超越静态及可学习STFT配置，达到1.15次/分钟的平均绝对误差，这与频谱图表征分析中Mel适应性呈现更强结构化特征权重再分配一致。该流程的呼吸频率精度主要依赖于频谱图时间轴上的时间局域化精度而非单纯通用检测指标。基于此目标，基于验证集min-MAE的类特定置信度选择较PR交点阈值策略获得更优测试集性能。结论主要支持基于呼气的呼吸频率追踪可行性，而吸气检测鲁棒性较低、跑步场景难度高于静息记录。在所研究条件下这些发现支持从简单音频采集设置进行准确呼气追踪的可行性，但更广泛的部署声明仍需更大规模、更多样化的呼吸音频测试数据集。统计分析支持该结论：相较PR交点阈值，min-MAE策略提供可学习前端益处的最一致证据，包括批次水平完全负值置信区间及多次批次设置下的显著单侧置换结果。综合层面，效应方向仍有利于可学习Mel但未跨越严格的0.05阈值，表明存在稳健实践趋势但伴有中等残余不确定性。

联系信箱：

粤ICP备09063491号

热点排行