《Discover Public Health》:Risk classification of hand-arm vibration exposure using machine learning for occupational health protection
编辑推荐:
本研究评估了监督式机器学习模型在基于割草作业人员现场数据的手传振动(HAV)风险分类中的有效性,该人群被选作高振动职业任务的受控替代群体。所提出的框架旨在未来应用于包括采矿业在内的危险作业环境,其中早期HAV风险识别对职业健康防护至关重要。研究人员共收集了来自
本研究评估了监督式机器学习模型在基于割草作业人员现场数据的手传振动(HAV)风险分类中的有效性,该人群被选作高振动职业任务的受控替代群体。所提出的框架旨在未来应用于包括采矿业在内的危险作业环境,其中早期HAV风险识别对职业健康防护至关重要。研究人员共收集了来自6名作业人员的292项现场HAV暴露测量数据,采用标准化A(8)振动评估,并辅以北欧人体图谱(NBM)评分和个人属性。基于预测性能和计算效率,研究人员对10种监督式机器学习模型进行了比较,用于多类别HAV风险分类(低风险、中等风险、高风险)。研究采用SHAP(Shapley Additive exPlanations)分析以检验模型的可解释性。集成模型在各风险类别中表现出优异且均衡的性能。梯度提升(Gradient Boosting)实现了最高的总体分类准确率(98.31%)且推理时间极低(0.002秒)。随机森林(Random Forest)和K近邻(K-Nearest Neighbours)同样展现出较高的精确率、召回率和F1分数。特征选择分析再次证实振动暴露幅度为风险贡献的主导因素,个体特征则影响风险区分。研究结果表明,基于机器学习的HAV风险分类可实现高风险暴露条件的早期识别,从而能够及时采取预防性干预措施,如暴露控制、任务调整和针对性健康监测。该研究为未来在采矿业及其他高振动职业环境中的现场验证提供了稳健的方法学基础。
## 研究背景与问题
手传振动(Hand-Arm Vibration, HAV)是指由动力工具和机械产生并传递至作业人员手部的振动。长期反复暴露于HAV可导致手传振动综合征(Hand-Arm Vibration Syndrome, HAVS),这是一种严重影响血管、神经和肌肉功能的职业性疾病,可能发展为雷诺现象、腕管综合征及神经感觉损伤等。国际劳工组织(ILO)和欧洲委员会均将HAVS认定为职业病,凸显了对受影响工人进行经济和医疗支持的必要性。
当前HAV风险评估实践主要依赖于基于阈值的静态方法,如ISO 5349-1:2001和欧盟指令2002/44/EC规定的8小时等效振动暴露水平A(8)——暴露 action值(EAV)为2.5 m/s2,暴露限值(ELV)为5.0 m/s2。然而,这些方法存在明显局限:无法充分考虑个体耐受水平、症状进展动态或实际工作条件下的暴露模式变化,也难以实现个性化、自适应或近实时的风险分类。此外,工人的个体差异(如吸烟、饮酒习惯、生活方式及业余体育活动)显著影响HAV相关风险的评估,但传统方法难以整合这些多维因素。同时enger,工人在使用振动工具时发生相关疾病的风险是普通人群的4至5倍,而神经感觉损伤的进展速度又是雷诺现象的3倍,这使得早期识别和干预尤为紧迫。
在此背景下,研究人员开展了这项研究,旨在构建一个基于监督式机器学习的HAV风险分类框架。该框架以割草作业人员作为高振动暴露的受控替代群体进行开发和验证,未来拟应用于采矿业等危险作业环境。研究的核心目标是实现HAV暴露风险的准确、高效、可解释分类,为职业健康防护提供数据驱动的决策支持工具,使雇主能够及时采取暴露控制、任务调整和有针对性的健康监测等预防性干预措施。
## 主要技术方法
本研究的技术路线涵盖以下关键环节:样本数据采集自6名男性割草作业人员的292次现场HAV暴露测量,使用符合ISO 5349标准的SV 106型六通道人体振动测量分析仪获取A(8)值,同时通过北欧肌肉骨骼问卷获取NBM评分,并收集年龄、身高、体重、吸烟、饮酒及体育锻炼等个人属性数据以计算BMI和进行行为特征分析。数据预处理阶段,针对三类风险(171例高风险、71例中等风险、50例低风险)的不平衡分布,采用合成少数类过采样技术(Synthetic Minority Over Sampling Technique, SMOTE)在5折交叉验证的训练集上进行类别平衡;对所有数值变量实施Z分数归一化处理;对分类变量采用独热编码,目标变量采用标签编码;通过递归特征消除(Recursive Feature Elimination, RFE)与主成分分析(Principal Component Analysis, PCA)的比较,最终选定RFE作为特征选择方法。研究系统比较了10种监督式机器学习模型——K近邻(KNN)、逻辑回归(Logistic Regression, LR)、径向基核支持向量机(SVM-RBF)、朴素贝叶斯(Naive Bay新兴的, NB)、多层感知器神经网络(Multi-Layer Perceptron, MLP)、梯度提升(Gradient Boosting, GB)、随机森林(Random Forest, RF)、Bagging、硬投票(Voting-Hard)和软投票(Voting-Soft)分类器,采用5折交叉验证进行评估。模型可解释性通过SHAP(Shapley Additive exPlanations)分析实现,以随机森林为代表性树集成模型进行特征重要性解读。
## 研究结果
### 3.1 模型性能比较
基于5折交叉验证的结果,集成模型 consistently 展现出 superior 且均衡的性能。梯度提升取得最高总体准确率98.31%,加权精确率、召回率和F1分数均为0.99,宏平均指标达0.98、0.97、0.97。Bagging完全匹配梯度提升的性能指标,但训练时间和推理时间显著更高。随机森林准确率为97%,各加权指标和宏平均指标均为0.96-0.97,表现出无偏的类别预测能力。软投票和硬投票分类器同样达到97%准确率,有效聚合了基学习器。KNN准确率亦为97%,且训练时间为零。MLP和LR准确率均为93%,但宏平均指标略低,显示对少数类别的处理不足。SVM准确率为89%,NB最低仅为80%,后者在中等风险类别上误判严重。
### 3.2 推理效率与计算性能
除预测性能外,研究人员重点考察了模型的计算效率以评估其实时应用潜力。梯度提升在最高准确率(0.98)基础上,保持中等训练时间(0.55秒)和极快推理速度(0.002秒),兼具批处理预测和实时部署优势。Bagging虽准确率相同,但其推理时间高达0.18秒,较梯度提升慢90倍,成为实时应用的关键瓶颈。KNN和随机森林推理时间分别为0.006秒和0.028秒,表现良好。SVM和LR训练和推理几乎瞬时完成,但准确率受限。NB训练推理最快,但低准确率使其仅适用于轻量级基线应用。
### 3.3 混淆矩阵分析
梯度提升完美分类所有高风险和中等风险案例,仅1例低风险被误判为中等风险,展现出卓越的类别分离能力和泛化性能。随机森林正确预测34/35高风险、全部14例中等风险和9/10低风险,误差极小且仅限于相邻类别。KNN表现类似,仅1例低风险误分类,且无高低风险的直接误判。NB表现最弱,5例高风险误判为中等,7/14中等风险误判为低风险,主要源于其特征独立性假设与实际数据不符。重要的是,所有模型均未出现高风险与低风险之间的直接误判,这对防止不安全暴露低估至关重要。中等风险作为过渡状态,其误分类通常触发更保守的干预措施,职业健康后果相对可控。
### 3.4 SHAP分析
对随机森林的SHAP分析揭示:A(8)以0.33的平均绝对SHAP值成为最具影响力预测因子,与A(8)直接决定暴露action值和限值的监管框架一致;NBM评分(0.06)为第二重要因素,凸显症状严重程度在暴露幅度之外的风险升级作用;年龄和BMI贡献中等,反映个体易感性和恢复能力的影响;吸烟状态贡献较小但不可忽略,与血管健康影响HAVS进展的证据相符。这些发现证实HAV风险由机械暴露与个体健康因素的交互作用共同决定,支持个性化和预防性职业干预的必要性。
## 讨论与结论
研究人员在结论部分指出,梯度提升因其在预测性能、类别稳定性与低计算成本之间的最优平衡,成为HAV风险实际部署的最适模型。随机森林和KNN在模型可解释性或训练时间效率优先时,可作为替代选择。集成模型(梯度提升、随机森林和Bagging)相较于单学习器模型展现出更强的泛化能力和鲁棒性,凸显了聚合多学习器进行现实环境中均衡风险分类的优势。研究结果为将多源振动数据集成于现场应用奠定了方法学基础。
该研究也存在一定局限:作业人员队列规模有限,工具特定的暴露条件,以及横断面研究设计。这些因素需要在解释模型性能和推广研究结果时予以考虑。未来研究将聚焦于开发结合HAV和全身振动(Whole-Body Vibration, WBV)的风险预测框架,整合同步多轴振动测量和生物力学响应数据,并针对采矿业等高振动区域开展现场验证。
发表于《Discover Public Health》的本研究,不仅为基于可穿戴设备的实时HAV风险监测提供了可行的技术路径,也为职业健康领域的数据驱动决策树立了重要范式——通过机器学习实现从"被动合规"到"主动预防"的转型,最终保障高振动环境作业人员的长期健康福祉。