OMLSched：面向光学机器学习训练集群的计算驱动型流式调度算法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Open Journal of the Communications Society》：OMLSched: Computation-driven Flow Scheduling for Optical Machine Learning Training Clusters

【字体：大中小】 时间：2026年04月14日 来源：IEEE Open Journal of the Communications Society 6.1

编辑推荐：

　　摘要：随着人工智能模型规模的扩大和训练数据量的增加，单个GPU的计算能力已不足以满足需求。尽管分布式机器学习（DML）可以通过增加GPU的数量来提升计算能力，但GPU之间的通信开销限制了训练速度和利用率。为了加速DML，人们使用光电路交换机（OCS）来构建机器学习集群，但仍然存

摘要：

随着人工智能模型规模的扩大和训练数据量的增加，单个GPU的计算能力已不足以满足需求。尽管分布式机器学习（DML）可以通过增加GPU的数量来提升计算能力，但GPU之间的通信开销限制了训练速度和利用率。为了加速DML，人们使用光电路交换机（OCS）来构建机器学习集群，但仍然存在端口限制和重新配置延迟等问题。虽然GPU利用率仍然是机器学习服务提供商的关键指标，但现有的调度器缺乏针对这一目标的显式优化。因此，需要改进的调度策略来克服硬件限制。在本文中，我们正式对机器学习集群中的GPU利用率优化问题进行了建模，并建立了其与作业调度之间的关系。我们提出了基于整数线性规划（ILP）的最优解决方案，以及一种实用的基于启发式的在线调度器OMLSched，用于在最小化光机器学习集群中作业间竞争的同时调度DML作业。最后，我们通过仿真评估了OMLSched与其他几种现有调度方法的性能。仿真结果显示，OMLSched在训练速度上提高了48%，在GPU利用率上提高了28%。

联系信箱：

粤ICP备09063491号

摘要：

热点排行