OMLSched:面向光学机器学习训练集群的计算驱动型流式调度算法
《IEEE Open Journal of the Communications Society》:OMLSched: Computation-driven Flow Scheduling for Optical Machine Learning Training Clusters
【字体:
大
中
小
】
时间:2026年04月14日
来源:IEEE Open Journal of the Communications Society 6.1
编辑推荐:
摘要:随着人工智能模型规模的扩大和训练数据量的增加,单个GPU的计算能力已不足以满足需求。尽管分布式机器学习(DML)可以通过增加GPU的数量来提升计算能力,但GPU之间的通信开销限制了训练速度和利用率。为了加速DML,人们使用光电路交换机(OCS)来构建机器学习集群,但仍然存
摘要:
随着人工智能模型规模的扩大和训练数据量的增加,单个GPU的计算能力已不足以满足需求。尽管分布式机器学习(DML)可以通过增加GPU的数量来提升计算能力,但GPU之间的通信开销限制了训练速度和利用率。为了加速DML,人们使用光电路交换机(OCS)来构建机器学习集群,但仍然存在端口限制和重新配置延迟等问题。虽然GPU利用率仍然是机器学习服务提供商的关键指标,但现有的调度器缺乏针对这一目标的显式优化。因此,需要改进的调度策略来克服硬件限制。在本文中,我们正式对机器学习集群中的GPU利用率优化问题进行了建模,并建立了其与作业调度之间的关系。我们提出了基于整数线性规划(ILP)的最优解决方案,以及一种实用的基于启发式的在线调度器OMLSched,用于在最小化光机器学习集群中作业间竞争的同时调度DML作业。最后,我们通过仿真评估了OMLSched与其他几种现有调度方法的性能。仿真结果显示,OMLSched在训练速度上提高了48%,在GPU利用率上提高了28%。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号