《Inventions》:Performance Comparison of Machine Learning Across Metal, Cuda, and Software-Based Neuromorphic Simulation
编辑推荐:
机器学习对计算的需求要求在不同硬件架构上实现最佳性能和利用率。本研究比较了在配备Metal Performance Shaders (MPS)的Apple Silicon M3 Pro和配备CUDA的NVIDIA RTX 3070 GPU上,计算作为脉冲神经网
机器学习对计算的需求要求在不同硬件架构上实现最佳性能和利用率。本研究比较了在配备Metal Performance Shaders (MPS)的Apple Silicon M3 Pro和配备CUDA的NVIDIA RTX 3070 GPU上,计算作为脉冲神经网络(CSNNs,或模拟神经形态计算)和常规CNN的性能。研究人员在两个数据集(基于帧的CIFAR-10和顺序事件基DVS)上运行卷积脉冲神经网络(CSNNs)和传统CNN,以评估神经网络架构和平台对不同数据问题的适用性。对于CSNN和传统CNN,配备MPS的Apple Silicon在训练和推理中提供了更好的能效,但处理时间更长。对于CNN,配备CUDA的NVIDIA在训练和推理中提供了更快的计算,但能耗更高。对于CSNN,当缺乏适当的时间编码时,基于帧的数据(CIFAR-10)显著降低了性能,而事件基数据(DVS)被证明比基于帧的输入更自然地适合CSNN架构。尽管在报告的实验中,CNN仍然实现了更高的经验准确率。CSNN在顺序事件基数据上也在Apple Silicon(配备MPS)上表现更好。在两个数据实验中,RAM利用模式有利于Apple Silicon(配备MPS)。无论平台和数据集如何,CSNN架构比CNN要求更高的内存资源。与Apple Silicon(配备MPS)相比,NVIDIA(配备CUDA)对脉冲神经网络(CSNN)的能效较低。研究人员还比较了时间步数如何影响不同硬件平台上的准确率和能耗,发现随着时间步增加,更高的准确率与能耗成本相关;对于基于帧的数据,准确率-能量关系似乎是线性的,而对于事件基数据,在更高时间步下能耗保持稳定增加。研究人员对脉冲和常规神经网络架构的跨平台性能分析强调了将平台-架构组合与数据集和应用需求相匹配的重要性。
**论文解读文章**
**研究背景与问题**
随着机器学习(ML)复杂性和计算需求的不断增长,选择适当的硬件平台与神经网络架构组合对于平衡性能、成本和能耗至关重要。当前研究多集中于单一平台或单一架构的评估,缺乏对多个平台(如Apple Silicon与NVIDIA GPU)及不同模型架构(传统卷积神经网络CNN与模拟神经形态计算的脉冲神经网络CSNN)的系统性跨平台对比。此外,不同数据类型(基于帧的静态图像与事件基的时序数据)对架构的适配性尚未被充分量化,尤其脉冲神经网络在模拟环境下的能效优势往往因缺乏专用硬件而未能体现。为填补这一空白,研究人员开展了本项研究,旨在通过统一框架比较Apple Silicon(采用Metal Performance Shaders, MPS)与NVIDIA GPU(采用CUDA)在CNN和CSNN上的性能,并评估时间步对准确率-能耗权衡的影响。论文发表在《Inventions》。
**主要技术方法**
研究采用snnTorch库(v0.9.4)构建CSNN,PyTorch(v2.5.1)作为后端,利用MPS和CUDA实现跨平台GPU加速。实验硬件包括:Apple M3 Pro芯片(18 GB统一内存,18核GPU,macOS Sequoia)和Intel i7-13700K + NVIDIA RTX 3070(32 GB DDR5,Windows 11)。数据集来源:CIFAR-10(50,000训练/10,000测试,32×32 RGB帧基图像)和IBM DVSGesture(1,077训练/264测试,128×128事件流,含11类手势)。模型方面:CIFAR-10采用ResNet-18与传统CSNN;DVSGesture采用定制CNN与CSNN。训练超参数包括Adam优化器、学习率调度、批量大小(128或16)及30/40个epoch。性能监控利用powermetrics(Apple)和nvidia-smi(NVIDIA)采样功率(0.5 s间隔),psutil追踪RAM,torch.mps/cuda函数记录GPU内存分配与保留,并对每次实验重复3次(补充实验重复5次)取均值±标准差。
**研究结果**
***3.1 实验1(CIFAR-10)***
通过比较ResNet-18与CSNN在帧基CIFAR-10上的性能,发现ResNet-18在两个平台上均获得更高准确率(Apple MPS: 83.84%,NVIDIA CUDA: 84.09%),而CSNN仅达72.51%和71.45%。推理时间方面,NVIDIA CUDA和ResNet-18组合最快。内存上,Apple Silicon RAM消耗比NVIDIA低33–55%,但GPU分配内存则Apple更高。能效显著差异:NVIDIA CUDA的功率消耗是Apple的5倍(ResNet)至8倍(CSNN),总瓦时超过3倍。CSNN训练时长远超ResNet-18(Apple上3.65倍,NVIDIA上1.94倍)。
***3.2 实验2(DVSGesture)***
在事件基DVS数据上,CNN准确率(Apple 83.36%,NVIDIA 89.02%)仍高于CSNN(Apple 80.30%,NVIDIA 77.27%),但CSNN在Apple平台表现优于NVIDIA平台,而CNN则相反。推理速度上,NVIDIA对CNN更快,Apple对CSNN更快。RAM消耗Apple比NVIDIA低约10–13%,GPU内存分配两平台相近,但CSNN整体需求更高。能效差距更大:NVIDIA对CNN平均功率139.11 W,Apple仅10.67 W(13倍);对CSNN,NVIDIA总能耗比Apple高16倍。训练时间上,CNN在NVIDIA上快2.65倍,CSNN则在Apple上快2.07倍。
***3.3 讨论***
实验1表明帧基数据因缺乏时间编码,CSNN无法发挥脉冲处理优势;实验2中事件基数据使CSNN准确率接近CNN,体现架构-数据匹配性但尚未超越成熟CNN优化。硬件方面,Apple以能效优先但速度较慢,NVIDIA以速度优先但能耗高。CSNN能效低于预期主要源于软件模拟开销(在通用GPU上模拟脉冲行为需额外计算)以及时间步导致的顺序处理依赖。RAM利用Apple更优,但GPU保留内存CSNN更高因需存储神经元状态。
***3.5 补充分析:准确率-能耗权衡***
在Apple平台上改变CSNN时间步(CIFAR: 1–12步;DVS: 4–20步),训练40 epoch。对于CIFAR-10,时间步从1增至12,准确率从59.03%升至81.82%,但总能耗从3.04 Wh升至48.27 Wh(增长15.9倍),呈对数增长且收益率递减;平均功率从10.87 W升至17.87 W。每百分点准确率能耗从0.0514 Wh增至0.5900 Wh。对于DVSGesture,4步时准确率最高(81.06%),8–12步下降后回升至80.30%,总能耗从5.03 Wh增至25.13 Wh(增长4.99倍),平均功率相对稳定(12.34–12.80 W),20步时因热节流降至7.35 W。结果显示事件基数据在低时间步达最优能效,帧基数据需更深度处理但边际收益递减。
**总结讨论与结论**
研究强调平台-架构-数据集匹配的重要性:事件基数据更适配CSNN,但传统CNN仍具准确率优势;Apple Silicon在能效和内存利用上占优,NVIDIA CUDA在速度上领先但能耗高。时间步分析证实CSNN的准确率-能耗需联合权衡,帧基数据呈线性关系,事件基数据在低时间步更高效。结论指出,评估脉冲神经网络时需综合准确率、执行时间和能效,尤其针对能耗受限或实时系统。未来工作可探索不同神经元模型、混合架构(如LSTM或Transformer),或在专用神经形态硬件(如Loihi 2)上验证能效优势。本研究的跨平台模拟为实际部署提供了重要参考。