基于机器人遥操作、移动多模态视听感知与边缘深度学习分析的实时劳动力监测与管理

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Applications of Artificial Intelligence》：Real-time workforce monitoring and management through robotic teleoperation, mobile multi-modal visual and auditory sensing, and edge deep learning analytics

【字体：大中小】 时间：2026年04月13日 来源：Engineering Applications of Artificial Intelligence 8

编辑推荐：

　　有效的劳动力监测对保障工作场所绩效至关重要。基于视觉的劳动力监测（Workforce Monitoring, WFM）虽具潜力，但在适应性、场景覆盖及遮挡处理方面仍面临挑战。本研究提出一种新型机器人遥操作增强的多模态WFM框架，结合改进版YOLOv9（You

有效的劳动力监测对保障工作场所绩效至关重要。基于视觉的劳动力监测（Workforce Monitoring, WFM）虽具潜力，但在适应性、场景覆盖及遮挡处理方面仍面临挑战。本研究提出一种新型机器人遥操作增强的多模态WFM框架，结合改进版YOLOv9（You Only Look Once version 9）架构与人体工学信息驱动的学习范式，用于实时劳动力与施工现场监测。该框架将遥操作机器人、深度学习（Deep Learning, DL）、边缘计算机视觉、机器听觉与云端可视化集成于统一流程中，实现用于工人安全评估（Worker Safety Evaluation, WSE）与生产效能评估（Worker Productivity Assessment, WPA）的图像分析，以及用于工地监测的听觉分析。WSE包含个人防护装备（Personal Protective Equipment, PPE）检测，以及基于三维（3D）姿态的快速全身评估（Rapid Entire Body Assessment, REBA）的肌肉骨骼疾患风险评价。WPA通过基于3D姿态的工人活动识别（Worker Activity Recognition, WAR）分析工人行为随时间的变化。研究人员开发了一种具备多尺度特征提取能力的轻量化DL模型，可识别14种基于音频的现场活动，在出现遮挡时对WSE与WPA形成补充。实验结果表明：（1）结合迁移学习的改进YOLOv9架构在交并比阈值0.5-0.95下的平均精度均值（mean Average Precision at 0.5-0.95 Intersection-over-Union threshold, mAP50-95）达到66.93%，较YOLOv9基线提升7.5%；（2）融合人体工学信息学习的随机森林模型在WAR任务中准确率达84.40%，较基线提升5%；（3）基于音频的活动识别模型准确率为88.10%、召回率86.86%、精确率88.64%、F1分数86.92%；（4）现场测试显示劳动力监测推理速度为4.3帧每秒，机器人跟踪刷新率为0.5 Hz。该研究推动自动化劳动力监测向更高智能、可靠与全面的方向发展。

研究背景方面，劳动力管理对保障各行业项目顺利实施至关重要，涵盖人力资源优化、进度控制、成本管理、工艺质量评估与安全规程执行等方面，其中职业健康与安全是最关键的考量因素。现有基于视觉的WFM系统在固定摄像头条件下取得一定成果，但因视角受限导致盲区与事件遗漏，且多数系统仅针对单一管理目标设计，难以提供全面的劳动力状况洞察，制约管理者决策的科学性。机器人遥操作技术在施工领域已有多种应用，但尚未充分融入WFM工作流，且现有系统常依赖商业软件或专用硬件，缺乏通用易用的可视化平台，同时实时分析能力不足，影响现场响应效率。因此，研究人员提出了一种融合遥操作机器人、多模态感知与边缘计算的实时劳动力监测框架，旨在克服传统方法的局限性。

关键技术方法方面，研究人员构建了基于无人地面车辆（Unmanned Ground Vehicle, UGV）的遥操作机器人平台，搭载边缘计算设备Jetson AGX Orin，配合高分辨率相机、全向麦克风与全球导航卫星系统（Global Navigation Satellite System, GNSS）单元进行数据采集。软件层面采用Python统一开发，避免使用机器人操作系统（Robot Operating System, ROS）以降低依赖并提高灵活性。核心技术包括改进YOLOv9架构（引入分离增强注意力模块SEAM并结合迁移学习）、基于ROMP模型的3D人体姿态估计、REBA人体工学风险评估、融合人体工学特征的随机森林工人活动识别，以及多尺度并行卷积结合门控循环单元的音频活动识别模型。数据来源于公开建筑工地安全数据集及现场采集的视频与音频样本。

研究结果方面，在DL架构对工人与PPE检测性能中，改进YOLOv9（架构3）表现最佳，精度提升1.27%，mAP_50-95提升7.50%，验证了SEAM模块结合仅头部迁移学习的有效性。工人活动识别与生产力评估结果显示，常规学习范式中随机森林模型准确率最高，达80.39%；引入人体工学信息学习后，准确率提升至84.40%，表明REBA特征增强可有效提高识别性能。现场测试中，两名工人的生产力评估结果分别为66.89%与87.74%，差异主要源于工人离场频次不同，可为管理人员提供针对性干预依据。音频活动识别模型在14类施工活动中总体准确率达88.10%，但在低强度声音（如咳嗽、脚步声）识别上存在不足，建议未来引入自适应噪声消除或注意力机制改进。模型性能对比表明，改进YOLOv9在精度与mAP指标上优于其他YOLO系列模型，ROMP模型在边缘设备上推理速度显著优于Multi-HMR，更适合实时应用。现场测试验证了系统在真实工地环境中的适用性，监测速度达4.3 fps，机器人轨迹刷新率为0.5 Hz，并通过自适应码率传输应对网络波动。

讨论与结论部分，研究人员指出该框架通过融合机器人移动感知与多模态分析，显著提升了监测覆盖率、适应性与综合响应能力，支持实时安全与生产力反馈，并可扩展至制造、仓储、采矿及医疗等领域。当前局限包括决策级数据融合的潜在冲突、RGB相机视场限制、轮式UGV在不平地形上的适应性不足，以及缺乏触觉反馈。未来研究可探索多层次数据融合、全景成像技术、四足或混合空中-地面机器人平台，以及触觉/力反馈集成。总体而言，本研究提出的机器人遥操作增强型多模态WFM框架，实现了高效、实时的劳动力安全与生产力监测，为智能化工地管理提供了可行的技术路径。

联系信箱：

粤ICP备09063491号

热点排行