基于机器人遥操作、移动多模态视听感知与边缘深度学习分析的实时劳动力监测与管理

《Engineering Applications of Artificial Intelligence》:Real-time workforce monitoring and management through robotic teleoperation, mobile multi-modal visual and auditory sensing, and edge deep learning analytics

【字体: 时间:2026年04月13日 来源:Engineering Applications of Artificial Intelligence 8

编辑推荐:

  有效的劳动力监测对保障工作场所绩效至关重要。基于视觉的劳动力监测(Workforce Monitoring, WFM)虽具潜力,但在适应性、场景覆盖及遮挡处理方面仍面临挑战。本研究提出一种新型机器人遥操作增强的多模态WFM框架,结合改进版YOLOv9(You

  
有效的劳动力监测对保障工作场所绩效至关重要。基于视觉的劳动力监测(Workforce Monitoring, WFM)虽具潜力,但在适应性、场景覆盖及遮挡处理方面仍面临挑战。本研究提出一种新型机器人遥操作增强的多模态WFM框架,结合改进版YOLOv9(You Only Look Once version 9)架构与人体工学信息驱动的学习范式,用于实时劳动力与施工现场监测。该框架将遥操作机器人、深度学习(Deep Learning, DL)、边缘计算机视觉、机器听觉与云端可视化集成于统一流程中,实现用于工人安全评估(Worker Safety Evaluation, WSE)与生产效能评估(Worker Productivity Assessment, WPA)的图像分析,以及用于工地监测的听觉分析。WSE包含个人防护装备(Personal Protective Equipment, PPE)检测,以及基于三维(3D)姿态的快速全身评估(Rapid Entire Body Assessment, REBA)的肌肉骨骼疾患风险评价。WPA通过基于3D姿态的工人活动识别(Worker Activity Recognition, WAR)分析工人行为随时间的变化。研究人员开发了一种具备多尺度特征提取能力的轻量化DL模型,可识别14种基于音频的现场活动,在出现遮挡时对WSE与WPA形成补充。实验结果表明:(1)结合迁移学习的改进YOLOv9架构在交并比阈值0.5-0.95下的平均精度均值(mean Average Precision at 0.5-0.95 Intersection-over-Union threshold, mAP50-95)达到66.93%,较YOLOv9基线提升7.5%;(2)融合人体工学信息学习的随机森林模型在WAR任务中准确率达84.40%,较基线提升5%;(3)基于音频的活动识别模型准确率为88.10%、召回率86.86%、精确率88.64%、F1分数86.92%;(4)现场测试显示劳动力监测推理速度为4.3帧每秒,机器人跟踪刷新率为0.5 Hz。该研究推动自动化劳动力监测向更高智能、可靠与全面的方向发展。
研究背景方面,劳动力管理对保障各行业项目顺利实施至关重要,涵盖人力资源优化、进度控制、成本管理、工艺质量评估与安全规程执行等方面,其中职业健康与安全是最关键的考量因素。现有基于视觉的WFM系统在固定摄像头条件下取得一定成果,但因视角受限导致盲区与事件遗漏,且多数系统仅针对单一管理目标设计,难以提供全面的劳动力状况洞察,制约管理者决策的科学性。机器人遥操作技术在施工领域已有多种应用,但尚未充分融入WFM工作流,且现有系统常依赖商业软件或专用硬件,缺乏通用易用的可视化平台,同时实时分析能力不足,影响现场响应效率。因此,研究人员提出了一种融合遥操作机器人、多模态感知与边缘计算的实时劳动力监测框架,旨在克服传统方法的局限性。
关键技术方法方面,研究人员构建了基于无人地面车辆(Unmanned Ground Vehicle, UGV)的遥操作机器人平台,搭载边缘计算设备Jetson AGX Orin,配合高分辨率相机、全向麦克风与全球导航卫星系统(Global Navigation Satellite System, GNSS)单元进行数据采集。软件层面采用Python统一开发,避免使用机器人操作系统(Robot Operating System, ROS)以降低依赖并提高灵活性。核心技术包括改进YOLOv9架构(引入分离增强注意力模块SEAM并结合迁移学习)、基于ROMP模型的3D人体姿态估计、REBA人体工学风险评估、融合人体工学特征的随机森林工人活动识别,以及多尺度并行卷积结合门控循环单元的音频活动识别模型。数据来源于公开建筑工地安全数据集及现场采集的视频与音频样本。
研究结果方面,在DL架构对工人与PPE检测性能中,改进YOLOv9(架构3)表现最佳,精度提升1.27%,mAP50-95提升7.50%,验证了SEAM模块结合仅头部迁移学习的有效性。工人活动识别与生产力评估结果显示,常规学习范式中随机森林模型准确率最高,达80.39%;引入人体工学信息学习后,准确率提升至84.40%,表明REBA特征增强可有效提高识别性能。现场测试中,两名工人的生产力评估结果分别为66.89%与87.74%,差异主要源于工人离场频次不同,可为管理人员提供针对性干预依据。音频活动识别模型在14类施工活动中总体准确率达88.10%,但在低强度声音(如咳嗽、脚步声)识别上存在不足,建议未来引入自适应噪声消除或注意力机制改进。模型性能对比表明,改进YOLOv9在精度与mAP指标上优于其他YOLO系列模型,ROMP模型在边缘设备上推理速度显著优于Multi-HMR,更适合实时应用。现场测试验证了系统在真实工地环境中的适用性,监测速度达4.3 fps,机器人轨迹刷新率为0.5 Hz,并通过自适应码率传输应对网络波动。
讨论与结论部分,研究人员指出该框架通过融合机器人移动感知与多模态分析,显著提升了监测覆盖率、适应性与综合响应能力,支持实时安全与生产力反馈,并可扩展至制造、仓储、采矿及医疗等领域。当前局限包括决策级数据融合的潜在冲突、RGB相机视场限制、轮式UGV在不平地形上的适应性不足,以及缺乏触觉反馈。未来研究可探索多层次数据融合、全景成像技术、四足或混合空中-地面机器人平台,以及触觉/力反馈集成。总体而言,本研究提出的机器人遥操作增强型多模态WFM框架,实现了高效、实时的劳动力安全与生产力监测,为智能化工地管理提供了可行的技术路径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号