非侵入性呼气血糖估计：一种紧凑型电子鼻方法的患者级验证

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《AI》：Non-Invasive Blood Glucose Estimation from Exhaled Breath: Patient-Level Validation of a Compact Electronic Nose Approach

【字体：大中小】 时间：2026年06月12日 来源：AI 5

编辑推荐：

　　非侵入性呼气血糖估计已被提出作为重复毛细血管测量的无痛替代方案；然而，在小样本设置中性能评估仍具挑战性。本研究利用电子鼻（e-nose）采集的挥发性有机化合物（VOC）信号，研究从人体呼气中估计血糖。从58名个体中收集了三个对一氧化碳（CO）、酒精和丙酮敏感的

非侵入性呼气血糖估计已被提出作为重复毛细血管测量的无痛替代方案；然而，在小样本设置中性能评估仍具挑战性。本研究利用电子鼻（e-nose）采集的挥发性有机化合物（VOC）信号，研究从人体呼气中估计血糖。从58名个体中收集了三个对一氧化碳（CO）、酒精和丙酮敏感的金属氧化物传感器通道的响应，每个受试者进行一次测量，并使用严格的受试者级五折交叉验证进行分析，其中测试折仅包含真实受试者。研究人员考察了两个实验因素。首先，模型性能在有和无附加的可解释酒精–丙酮对数比（捕捉化合物间相对变异）的情况下进行评估。其次，模型训练使用仅真实数据或基于高斯连接函数（Gaussian copula）的折向表格合成增强（仅拟合训练受试者）进行，而评估严格仅基于真实数据。在仅真实数据训练下，经典机器学习模型实现了最低的预测误差（约6–7 mg/dL），而在合成增强下，FTTransformer是表现最佳的深度学习模型。这些发现应被理解为受约束的概念验证分析，而非诊断能力或临床就绪性的证据。

### 论文解读：呼气血糖估计的非侵入性电子鼻方法——患者级验证下的探索性分析

#### 研究背景与问题

糖尿病（Diabetes mellitus）是全球最普遍的慢性代谢疾病之一，其核心特征为持续高血糖。血糖监测（BGM）是糖尿病管理的基石，但传统的指尖毛细血管检测或连续血糖监测（CGM）为侵入性操作，频繁测量时依从性受限。因此，寻找无创、可支持更频繁评估的替代方法具有重要临床价值。近年来，呼气分析因含有与葡萄糖代谢相关的挥发性有机化合物（VOCs）而受到关注，尤其丙酮（acetone）与酮体生成密切相关。然而，前期证据表明呼气丙酮与血糖之间的关系存在个体差异，且并非单调一致。实验室级分析平台（如GC–MS、SIFT–MS、PTR–MS）灵敏度高但成本高、操作复杂，限制了其在床旁部署。基于金属氧化物半导体（MOS）传感器的电子鼻（e-nose）通过捕捉“呼气指纹”提供紧凑且低成本的替代方案，结合机器学习可建模血糖水平。

目前存在的主要问题包括：小样本生物医学环境下，数据划分、预处理或评估中的微小选择可能引入乐观偏差，而医学人工智能强调需进行受试者级（患者级）分离；呼气血糖估计中个体间变异大且每个受试者通常仅有一个测量值，导致性能评估困难；合成数据增强技术虽被用于缓解数据稀缺，但其效用高度依赖生成器类型、数据集大小和评估协议，且必须严格在训练折内生成以防止泄露。在此背景下，本研究旨在严格患者级、最小泄露的协议下，评估简单建模干预（酒精–丙酮对数比和基于高斯连接函数的合成增强）是否改变小样本呼气血糖预测性能。

研究人员开展了一项受约束的概念验证研究：基于58名个体（29名健康、29名1型/2型糖尿病患者），每人仅有一个配对呼气与毛细血管血糖测量值，使用三个MQ系列MOS传感器（对CO、酒精、丙酮敏感）获取VOC信号。采用严格的患者级五折外部交叉验证，评估在有无酒精–丙酮对数比特征以及有无折向高斯连接函数（Gaussian copula）合成增强下的模型性能，所有测试均在真实患者上进行。主要结论为：在仅真实数据训练下，经典机器学习模型（如随机森林）预测误差最低（MAE约6–7 mg/dL）；合成增强未改善泛化能力，反而导致性能退化；酒精–丙酮对数比仅带来模型依赖的微小改善，无统计学显著支持。该研究明确了现有数据限制下模型能力的边界，强调不能将其视为诊断能力或临床就绪性的证据。论文发表在《AI》。

#### 主要关键技术方法

研究人员使用自行验证的紧凑型电子鼻系统，包含MQ系列（MQ-2、MQ-3、MQ-138）MOS传感器，分别对CO、酒精/醇类、丙酮/酮类敏感。呼气样本通过1 L Tedlar袋采集，经去湿后导入密封传感腔。研究人员对每个受试者的90秒传感器时间序列进行离散小波变换（DWT，使用db6母小波及VisuShrink阈值法）去噪，min–max归一化，然后取整个采集窗口的平均值作为单个受试者特征向量。特征工程引入了一个辅助变量：酒精–丙酮对数比（log-ratio = ln((alcohol + ε) / (acetone + ε))，ε=10^?6）。合成数据采用高斯连接函数合成器（Gaussian Copula Synthesizer，来自SDV框架），在每个外折内仅对训练受试者拟合，每真实受试者生成10个合成样本，并在合成后截断至训练折的观测范围。模型评估采用严格患者级五折交叉验证，测试集仅包含真实受试者。模型包括线性/非线性机器学习模型（Lasso、ElasticNet、Huber回归、k近邻（KNN）、支持向量回归（SVR）、随机森林（RandomForest）、XGBoost、LightGBM、CatBoost）及深度学习模型（多层感知器MLP、深层全连接网络DNN、特征令牌化变换器FTTransformer）。性能指标为平均绝对误差（MAE）、均方根误差（RMSE）和决定系数（R²），辅以Bland–Altman一致性分析和Clarke误差网格分析，并采用可行走自助法（5000次重复）计算95%置信区间。

#### 研究结果

**3.1 模型评估（Model Evaluation）**
研究人员采用严格患者级五折外部交叉验证，依血糖分位数分层构建折，以稳定小样本下性能估计。所有模型使用固定先验超参数，不进行超参数调优或嵌套交叉验证，以避免小样本下调优导致的虚假性能提升。性能指标在外部测试折上计算，并汇总所有折的预测结果。

**3.2 不同训练与特征配置下的模型性能（Model Performance Under Different Training and Feature Configurations）**
在仅真实数据训练下，经典机器学习模型（尤其随机森林）在包含核心特征（CO、酒精、丙酮）时取得最低MAE（6.73 mg/dL）和最高R²（0.986），CatBoost和XGBoost紧随其后。深度学习模型（MLP、DNN、FTTransformer）误差更大。添加酒精–丙酮对数比后，随机森林仍为最优，但改善幅度微小且模型依赖（CatBoost反而恶化）。引入高斯连接函数合成增强后，所有模型在外部真实患者上的性能显著下降，FTTransformer成为增强框架下相对最优者（MAE 27.21 mg/dL，R² 0.897），但远差于真实数据训练下的最佳模型。同时添加对数比与合成增强未扭转整体退化趋势。结论：在严格患者级评估和小样本下，经典树集成模型最可靠；对数比仅提供有限辅助作用；合成增强不提升泛化能力，但改变了深度学习模型的相对竞争力。

**3.3 Clarke误差网格分析（Clarke Error Grid Analysis）**
在仅真实数据训练下，随机森林和CatBoost实现最高临床一致性：98.3%的预测落在Zone A（临床准确区），仅1.7%在Zone B（可接受偏差）。XGBoost紧随其后（96.6%在Zone A）。深度学习模型Zone A覆盖率为87–92%。无模型产生Zone E严重错误。添加对数比后，多数模型分布基本不变，但FTTransformer恶化明显（Zone A降至62.1%）。合成增强后，所有模型Zone A覆盖率下降，CatBoost最高（77.6%），深度学习模型降至63–65%；FTTransformer在此情景下保持Zone A和B（74.1%和25.9%），无更低区。添加对数比在增强背景下可选择性改善深度学习模型的Zone A覆盖率，但整体仍劣于真实数据训练。

**3.4 Wilcoxon检验（Wilcoxon Test）**
配对Wilcoxon符号秩检验评估对数比特征是否带来系统性MAE改善。在真实数据训练下，多数模型（DNN、XGBoost、Huber、ElasticNet、随机森林）显示负向平均MAE差值（即误差降低），但经Holm校正后p值均不显著。MLP和FTTransformer显示正向差值（误差增加），亦不显著。在真实数据加合成增强下，多数模型显示小幅度负向差值（XGBoost、CatBoost、DNN、SVR），但同样不显著；FTTransformer再次显示正向差值且置信区间完全为正，但校正后不显著。结论：对数比不是一个系统性有效的特征，其效果模型依赖且未达到统计显著性。

#### 讨论与结论总结

**讨论部分总结**：本研究在严格患者级分离和极端小样本条件下进行了受控的方法学评估，结论仅限于比较性验证，非诊断能力证明。在仅真实数据训练下，非线性机器学习模型（随机森林、梯度提升方法）取得最优的误差稳定性与临床一致性，而深度学习模型因额外复杂度未转化为更好泛化。酒精–丙酮对数比未提供系统性预测改善，仅模型依赖且效应小。高斯连接函数合成增强导致泛化退化，因合成样本增加训练观测数量但未增加真实受试者多样性，仅强化平均依赖模式而缺乏个体间变异性。研究缺乏低血糖病例、未记录禁食状态等临床信息、无重复测量等关键限制，限制了结果的解释。作者明确声明该研究为概念验证，不替代现有技术。

**研究结论部分翻译（第五部分 Conclusions and Future Work）**：这项工作表明，在使用最小VOC信号集且每个受试者仅有单次测量的情况下，可以在严格限制评估于未见真实个体的条件下研究呼气血糖估计。然而，由于样本量极小且缺乏重复测量，这些发现应被解释为受约束的概念验证证据，而非诊断能力、时间可重复性或临床就绪性的确认。在此设置下，基于树的机器学习模型提供了误差幅度与一致性之间的最佳平衡，而深度学习架构未能在测试集上获得更好性能。这些结果表明，在缺乏足够受试者信息的情况下，模型容量的增加并未转化为更好的外部预测。所考察的建模干预措施未带来可泛化的收益：酒精–丙酮对数比产生较小且模型特定的效应，在总体水平上无统计学支持；高斯连接函数合成增强在仅以真实受试者评估模型时未改善测试性能。未来工作应优先采用重复测量和纵向设计以捕获个体内变异性，评估传感器跨会话稳定性，验证呼气信号的时间一致性，将评估扩展至低血糖范围，并纳入受控临床情境变量。合成数据策略也需重新考虑，以明确与预测目标关联的方法。在更大、更多样化队列中进行独立外部验证，仍然是评估任何转化相关性的必要条件。

联系信箱：

粤ICP备09063491号

热点排行