基于机器学习(machine learning, ML)与超参数优化(hyperparameter optimization, HPO)方法的低成本CO2传感器校准之性能与计算成本比较评估

《Sensors》：Comparative Evaluation of Machine Learning and Hyperparameter Optimization Methods for Low-Cost CO2 Sensor Calibration in Terms of Performance and Computational Cost

【字体：大中小】 时间：2026年06月10日 来源：Sensors 3.5

编辑推荐：

　　摘要：低成本传感器(low-cost sensors, LCSs)因其经济性与可扩展性日益广泛应用于空气质量监测，但其精度不足需依赖可靠的校准方法。尽管基于机器学习(ML)的校准方法已显现良好前景，但由于数据集、搜索空间及优化预算(optimization b

摘要：低成本传感器(low-cost sensors, LCSs)因其经济性与可扩展性日益广泛应用于空气质量监测，但其精度不足需依赖可靠的校准方法。尽管基于机器学习(ML)的校准方法已显现良好前景，但由于数据集、搜索空间及优化预算(optimization budget)的差异，不同超参数优化(hyperparameter optimization, HPO)策略间的直接比较仍具挑战性。本研究在AQ-MultiCal平台上构建标准化实验框架，对ML模型与HPO方法进行评估。采用相同的超参数搜索空间与相等的迭代预算(iteration budget)，对网格搜索(Grid Search, GS)、随机搜索(Random Search, RS)与贝叶斯优化(Bayesian Optimization, BO)进行比较，所用数据为五只基于非分散红外(non-dispersive infrared, NDIR)法的低成本CO2传感器采集的短期与长期实地数据集。结果表明，树基(tree-based)模型具备较强的基线性能，而k近邻(k-nearest neighbors, kNN)模型经优化后提升最为显著：优化后kNN模型使短期数据集平均均方根误差(root mean square error, RMSE)由77.4 ppm降至54.4 ppm，长期数据集由37.3 ppm降至26.2 ppm。尽管各HPO方法预测精度相当，但在计算成本上存在显著差异。所提框架可在真实传感器校准应用中兼顾预测性能与计算效率，实现HPO策略公平且可重复的比较。

论文解读：低成本CO₂传感器ML校准中机器学习模型与超参数优化方法的性能与计算成本比较评估

一、研究背景与目的

低成本传感器(low-cost sensors, LCSs)因价格低廉、便于大规模布设，被广泛用于城市大气污染物时空分辨率的密集监测，但其原始测量值受温度、相对湿度、传感器漂移、器件间差异及非线性响应影响，准确度远低于参比仪器，必须经过校准方可投入使用。基于机器学习(machine learning, ML)的校准方法善于拟合复杂非线性关系，已被应用于低成本和气体传感器校正。然而已有文献在评价超参数优化(hyperparameter optimization, HPO)策略时常采用不同数据集、异质验证方案、不同超参数搜索空间及不等价的优化预算(iteration budget)，导致网格搜索(Grid Search, GS)、随机搜索(Random Search, RS)与贝叶斯优化(Bayesian Optimization, BO)等方法难以进行方法论上公平、直接的比较，也限制了校准模型跨传感器网络的可迁移性。此外，现有研究多聚焦预测精度，HPO策略的计算成本及其与精度的权衡(trade-off)探讨不足，数据集规模（短期vs长期实测）对模型表现与优化行为的影响亦缺乏系统考察。为此，研究人员基于先前开发的AQ-MultiCal平台扩展标准化实验条件，在相同超参数搜索空间和固定迭代预算下，系统比较不同ML模型（线性模型、距离基模型、树基模型及集成/提升模型）与三种HPO策略（GS、RS、BO）在低成本NDIR CO₂传感器校准中的预测性能与计算消耗，并结合残差分布、预测–参比一致性及时间序列追踪作综合评估，以期为实际传感器校准应用提供兼顾精度与效率的可重复评价框架。该论文发表于《Sensors》。

二、主要关键技术方法

研究人员使用五只基于非分散红外(non-dispersive infrared, NDIR)原理的低成本和CO₂传感器与一台出厂校准的商用参比仪器（Dienmern DM72b）于2025年1—2月同步采集数据，按时间戳对齐并取1分钟均值，构成含84,960条记录的长期数据集与从中抽取的10,080条记录的短期数据集。预处理含缺失值填补（占比<1%）、时间对齐，输入变量仅用LCS原始CO₂读数，目标为参比仪CO₂浓度；数值特征对尺度敏感算法做训练集拟合并施加至验证/测试集防信息泄露。按时间顺序切分：短期数据80%训练、10%验证、10%测试；长期数据70%训练、15%验证、15%测试。各传感器独立建模取均值汇报。评估ML模型含Ridge、ENet（Elastic Net）、k-nearest neighbors(kNN)、Decision Tree(DT)、Random Forest(RF)、Gradient Boosting(GB)、AdaBoost(AdaB)、XGBoost(XGB)、LightGBM(LGBM)、CatBoost(CatB)。HPO采用GS、RS及BO（BayesSearchCV, scikit-optimize），统一定义相同超参数搜索空间与18次迭代预算，以验证集引导选择，测试集隔离至最终评估。性能指标为决定系数(R²)与均方根误差(root mean square error, RMSE)，辅以残差分布、预测–参比散点及时间序列追踪图进行分析。平台基于Python 3.12的Streamlit（AQ-MultiCal），使用scikit-learn、XGBoost、LightGBM、CatBoost及Plotly，固定随机种子保障可重现性。

三、研究结果

3.1 Comparison of Model Performance Using Default Parameters（默认参数下模型性能比较）

研究人员先以各模型默认超参数训练测试。结果显示树基模型即便未调参也具稳健预测力：短期数据集RF最低RMSE=68.2 ppm（R²=0.9169），CatB与LGBM接近；长期数据集RF最优（RMSE=31.2 ppm，R²=0.9864），DT次之，kNN第三。增大数据量普遍提升所有模型泛化能力，RF降幅尤为明显；kNN默认下误差高于树基模型，暗示其对超参数敏感。计算耗时随模型复杂度增加，RF精度高但耗时长于LGBM等。

3.1（续）Effect of HPO on Model Performance（HPO对模型性能的影响）

经HPO后，kNN提升最大——短期平均RMSE由77.4 ppm降至54.4 ppm，长期由37.3 ppm降至26.2 ppm，R²同步显著改善，Wilcoxon符号秩检验证实优化前后误差降低具统计显著性（p=0.03125）。RF与DT也有改善但幅度有限，因其默认配置已接近该数据结构下较优区；GB、AdaB、LGBM、CatB等提升模型默认即强且仅限搜索空间未探及更大变动区。长期数据助kNN更好学习局部模式。GS、RS、BO在此紧凑低维搜索空间与同等迭代预算下趋近相似最优区，预测精度无大差别。重复运行固定种子确保结果确定，运行时波动<5%源于系统调度。

3.2 General Evaluation of Models and Optimization Strategies（模型与优化策略的综合评价）

三种HPO预测精度总体相当，但计算成本差异明显并随数据量与模型复杂度放大。以长期集为例：GS优化RF耗时约2032 s（默认74.2 s），GS优化DT约163 s（默认7.5 s），GS优化kNN约121.7 s（默认3.1 s）。相对增幅kNN约40倍、RF约27倍、DT约22倍（短期集GB最高约33倍）。kNN虽增耗时但精度获益比更优。GS遍历搜索空间行为稳定，RS与BO以灵活采样获可比精度，部分情形下RS耗时更低。扩搜索空间与增迭代预算（RF 60次、GB 48次、AdaB 36次）致计算成本剧增（RF +117%等）而R²与RMSE改善甚微（RF RMSE仅约0.02%），说明更高预算未必带来实质增益，需在HPO中考量精度–计算代价权衡，故统一采用18次迭代预算保比较公平性。

3.3 Graph-Based Model Performance Analysis（图形化模型性能分析）

取HPO最佳之GS优化kNN模型，以单传感器LCS1长期测试集（N=12,744）作图解。预测–参比散点紧绕1:1线（R²=0.9965），表明校准后预测与参比值高度一致，高浓区略弥散但整体稳健。残差中心近零且于主要量程内离散度均匀，反映模型对各浓度区间误差特性可控。时间序列图显示校准输出成功跟踪参比仪整体时态趋势，含突变与峰值区具动态一致性，个别尖峰略有平滑但未丢失主体时态特征，证明ML校准可有效补偿传感器响应偏差并维持时态追踪能力。

四、讨论与结论翻译

讨论指出，不同ML架构对HPO敏感度差异大——kNN校准能力高度依赖邻域大小、距离度量与加权方式，优化后提升显著；RF/DT默认即稳建且对超参变动较不敏感。GS/RS/BO在低维限定搜索空间预测性能相近，BO优势多见于高维宽搜索情形；本实验模型架构影响大于HPO策略选择。RS在某些情况以较低耗时获相当精度，提示实际选取HPO须兼顾计算效率。残差零点偏移及高浓段方差略增说明极端区建模仍具挑战，多季节长时部署与多技术/多污染物验证是未来方向。局限含单一NDIR传感器族、受限搜索空间可能限制BO探索、未做外部独立数据集验证及未行HPO间统计显著性检验。

结论翻译如下：

在本研究中，研究人员利用短期与长期数据集系统评估了不同ML模型与HPO策略对低成本CO₂传感器校准的效果。结果表明模型性能受算法选择、数据集特征及超参数配置共同影响。树基模型（如RF与DT）展现强基线性能，而kNN模型经优化后改善最为显著。HPO策略比较显示，在研究条件下GS、RS与BO通常获得相当预测精度，但在计算成本上存在明显差异，尤以为计算密集型集成模型显著，凸显在资源受限应用中平衡精度与执行时间之必要。此外，长期数据集有助于提升模型稳定性，图解分析证明优化后kNN模型能有效追踪参比测量的时态变化。本研究亦承认局限：分析限于特定传感器族与环境条件，可能影响结论推广至多场景；较紧凑超参数搜索空间与固定迭代预算或限制BO等自适应方法探索能力；未使用不同环境条件下独立外部数据集做外部验证。未来研究可通过纳入更大规模多点数据集、更宽搜索空间及更完善统计评估以增强ML校准模型鲁棒性与可迁移性。总体而言，本研究强调在基于ML的传感器校准中需联合考量预测性能、计算效率及数据集特征。未来实时校准应用中，推理速度(inference latency)、内存占用及模型复杂度等部署导向因素亦将影响模型选择。

热点排行