边缘计算设备深度学习算法基准测试分析：面向机器人应用的性能、能效与硬件优化研究

《Array》：Benchmark analysis of deep learning algorithms for edge-based robotic applications

【字体：大中小】 时间：2026年04月12日 来源：Array 4.5

编辑推荐：

　　本文针对资源受限边缘设备部署人工智能的迫切需求，研究人员对主流边缘计算设备执行多种机器人视觉任务的深度学习算法进行了全面的基准测试。研究聚焦目标检测、图像分割、人体姿态估计和面部检测等任务，在Jetson系列、Raspberry Pi 4及Coral AI加速器等硬件上，对比分析了其在TensorRT、TFLite、PyTorch、OpenCV等框架下的推理速度、能效与硬件利用率。结果表明，GPU在提升推理速度上作用关键，而模型优化技术与AI加速器的使用可显著提升性能。该研究为实际机器人应用中的算法-硬件-框架选择提供了重要的量化依据与决策参考。

近年来，人工智能(AI)的迅猛发展深刻改变了包括汽车、医疗保健、制造、娱乐在内的众多行业。在机器人领域，让智能体在资源受限的“边缘”设备上自主、实时地感知与决策，是实现真正自主机器人的关键一步。然而，现实充满挑战：机器人通常由电池供电，计算能力有限，却需要在复杂动态环境中实时处理海量的视觉信息。是将数据传回云端处理，忍受延迟与带宽压力？还是将AI模型直接部署在机器人本体的小型计算单元上，直面算力、功耗与散热的重重限制？这背后是算法效率、硬件性能与能源消耗之间的艰难权衡。现有研究多聚焦于高端AI加速器与算法框架，而对广泛使用的商用边缘设备在实际机器人任务中的综合性能评估，特别是能效分析，仍缺乏系统性的研究。为了填补这一空白，并为机器人开发者提供切实的选型指南，由Quang Nhat Nguyen Le、Mamen Thomas Chembakasseril和Ronny Hartanto组成的研究团队开展了一项深入的基准测试研究，相关成果发表在期刊《Array》上。

为了系统评估边缘设备上深度学习算法的性能，研究人员采用了多维度、可量化的实验方法。首先，他们精选了在机器人应用中至关重要的四类视觉任务：目标检测、图像分割、人体姿态估计和面部检测，并为每类任务选取了代表性算法。其次，研究覆盖了包括NVIDIA Jetson Nano、Jetson TX2、Raspberry Pi 4 (RPi4)以及搭配Coral USB AI加速器的RPi4在内的多种主流商用边缘计算设备。第三，实验在多种主流机器学习框架下进行，包括TensorRT、TensorFlow Lite (TFLite)、PyTorch和OpenCV，以评估框架兼容性与优化效果。第四，研究定义了核心性能指标：推理速度以帧每秒(FPS)衡量，硬件利用率通过监控CPU、GPU、内存使用率来评估，能效则通过实时测量设备功耗(瓦特)来分析。对于Jetson设备，使用Tegrastats工具进行监控；对于RPi4，则通过外接ACS712电流传感器来精确测量功耗。最后，研究还探讨了模型压缩技术（量化和剪枝）对边缘设备性能的影响，以评估优化策略的有效性。

1. 目标检测结果分析

目标检测任务的测试涵盖了YOLO系列、SSD和Faster R-CNN等算法。总体而言，硬件性能更强的Jetson TX2在所有检测方法中都领先于Jetson Nano和RPi4。研究揭示了几个关键趋势：经过TensorRT或TFLite等专用框架优化的模型，其推理速度显著优于未优化的PyTorch模型。输入图像尺寸对推理速度有重大影响，尺寸增大会导致速度非线性下降，这涉及数据在CPU与加速器之间拷贝的开销。例如，YOLOv4在TX2上，输入尺寸从224增至608，FPS从约38骤降至约7。此外，使用外部AI加速器（如Coral TPU）能极大提升RPi4的推理速度（例如SSD-Mobilenet可达约60 FPS），但也会导致整体系统功耗显著增加（从约6W升至约11W）。研究指出，在电池供电的应用中，需要在推理速度与能耗之间取得平衡。对于某些只需10-20 FPS的机器人控制任务，Jetson Nano在性能与功耗的比值上表现出色。

2. 面部检测结果分析

在面部检测任务中，主要测试了Blazeface算法。结果显示，搭载TFLite优化模型的RPi4+Coral组合在推理速度上大幅领先于使用PyTorch框架的Jetson设备。然而，高速度伴随着高功耗（约5W）。相比之下，Jetson Nano虽速度较低，但功耗可控制在4瓦以下，在满足一定帧率（如10 FPS）要求的电池驱动应用中可能更具优势。这再次强调了根据整体应用需求而非单一峰值性能来选择方案的重要性。

3. 人体姿态估计结果分析

人体姿态估计任务测试了MoveNet模型。其性能规律与前述任务一致：TFLite优化模型（在RPi4+Coral上运行）在速度上远超PyTorch模型（在Jetson上运行），但功耗也更高。输入尺寸对TFLite模型速度影响显著（从192×192增大到256×256，FPS下降约25），但对PyTorch模型影响较小。在权衡速度与能耗后，Jetson Nano搭配PyTorch能以较低能耗提供超过20 FPS的速度，对于许多实时应用而言是一个有吸引力的折中选择。

4. 图像分割结果分析

图像分割任务测试了Deeplab V3和U-Net等算法。搭载TFLite优化模型(U-Net)的RPi4+Coral组合在速度上再次领先，但功耗最高。Jetson设备，特别是Jetson Nano，在功耗控制上表现更佳。输入尺寸同样对速度有决定性影响，尺寸减半可带来约10 FPS的性能提升。研究表明，对于帧率要求不高（如10 FPS）的图像分割应用，选择更紧凑的模型并在Jetson Nano上运行，可以最有效地节省能源。

结论与讨论

本研究通过对多种深度学习算法在主流边缘设备上的系统化基准测试，得出了若干对机器人应用具有重要指导意义的结论。首先，GPU在提升深度学习算法推理速度方面依然扮演着比CPU更关键的角色，但CPU对于高效的数据预处理任务仍不可或缺。在Jetson设备中，CPU与GPU之间的共享内存架构使得数据处理操作需要额外的功耗。其次，针对硬件优化的深度学习框架（如TensorRT、TFLite）能极大提升推理性能，凸显了模型与底层硬件能力对齐的重要性。对于RPi4，当其与Coral TPU加速器协同工作时，主要计算由TPU承担，CPU负责数据处理，且其ARM架构的动态电压频率缩放(DVFS)机制有助于维持功耗的相对稳定。再者，输入尺寸是影响推理速度的关键因素，且存在非线性关系，优化数据在处理器间的传输至关重要。最后，研究清晰地揭示了边缘AI部署中速度、精度与功耗之间固有的权衡关系。不存在“唯一最优”方案，最佳选择高度依赖于具体应用场景的需求，例如所需的帧率、可用的电池容量以及对实时性的要求。

本工作的意义在于，它为机器人研究者和工程师在选择用于目标检测、面部识别、人体姿态估计和图像分割的算法-硬件-框架组合时，提供了基于实证数据的详细路线图。所识别的性能优良的算法为机器人技术在协同制造、自主导航、人机交互等领域的进一步应用奠定了坚实基础。展望未来，研究可扩展至对多模态大语言模型(LLM)在边缘设备上性能的评估，并探索新一代AI加速器（如更先进的EdgeTPU、FPGA、NPU）的潜力，以持续推动资源受限环境下机器人智能的边界。

热点排行