具有部分全局计划的车间作业的具身多智能体调度

《ADVANCED ENGINEERING INFORMATICS》:Embodied multi-agent scheduling for workshop operations with partial global plans

【字体: 时间:2026年04月24日 来源:ADVANCED ENGINEERING INFORMATICS 9.9

编辑推荐:

  多智能体强化学习框架通过全局计划动态分解与物理约束感知的本地决策协同,有效平衡了大规模制造车间的长期优化与实时可行性,解决了传统方法在动态耦合场景下的协调不足问题。

  
王文达|张毅|王勇|潘戈|冯一平
浙江大学控制科学与工程学院,杭州,310027,中国

摘要

在复杂且动态的制造环境中(包括机械加工、运输、维护和充电)调度多种车间操作对传统方法来说是一个挑战。当这些操作紧密耦合时,集中式方法难以在大规模上做出及时决策,而分散式方法则难以在长时间范围内协调整个车间。这就需要一种设计,它将全局指导与快速的本地决策相结合。为了解决这些限制,我们引入了一个具身多智能体框架,在该框架中,智能体的决策过程明确考虑了它们的物理动态和约束。在这个框架内,由高层调度层生成的全局计划被动态分解为部分时间窗口,从而使本地具身智能体能够在保持长期全局优化目标和系统范围协调的同时做出实时适应性决策。为了实现这一设计,我们开发了一种具身多智能体深度强化学习(EMADRL)算法,该算法具有主动感知功能、动态作业相关性评分、通过物理约束进行动作空间剪枝以及能够有效扩展到不同问题复杂度的分布式协调协议。EMADRL结合部分全局计划,始终能够显著缩短完工时间,无需重新训练即可从小型车间推广到工业规模车间,并且在各种物理约束下实现每智能体毫秒级的本地决策延迟,展现了其卓越的性能和实时部署能力。

引言

工业车间调度需要分配有限的资源并按顺序安排任务[1],[2]以实现生产目标[3]。随着智能制造的出现,状态和决策空间的维度大幅增加,加剧了调度的计算复杂性[4]。现代车间包含异构机器、数千个任务和众多相互连接的变量[2],导致调度问题变得动态且高维,通常被称为“维度灾难”。在这种条件下,有效的调度需要高度的响应性和可扩展性,以确保资源的最佳利用,同时遵守严格的操作约束[5]。
一种常见的处理方法是将其视为集中式优化问题。典型的例子包括通过分支定界及相关精确方法解决的混合整数规划[6],以及遗传算法和禁忌搜索等元启发式方法[7],[8]。虽然这些方法可以离线生成高质量的调度方案,但它们往往扩展性较差,并且忽略了运输拥堵、能源和维护动态等物理执行效应。因此,在大型动态车间中反复在线解决此类模型变得不切实际[9]。
动态调度通过在执行过程中更新决策来应对不确定性。代表性的方法包括周期性重新调度、事件触发重新调度和滚动时域优化[10],[11]。调度规则(例如,最短处理时间和最早到期日)反应迅速,但在机械加工和运输竞争共享容量时往往显得目光短浅[12]。鲁棒和随机变体主动考虑了不确定性[13],但它们仍然面临计划质量与实时响应性之间的权衡。
最近,深度强化学习(DRL)和多智能体强化学习(MARL)被用于自适应调度[14],[15]。这些调度器协调抽象智能体,但忽略了机器和运输机器人的实际状态演变和限制(例如,可靠性退化、电池充电和空间冲突)。
传统的调度方法将制造实体视为被动资源进行分配,而现代智能制造则要求具有实时感知和决策能力的主动自主实体。具身视角认识到,每个物理实体(无论是机器、运输机器人还是车间)都具有计算智能和物理约束,必须在调度决策中共同考虑[16]。一个具身调度器的决策变量、观察结果、可行性检查和状态转换都受到执行实体(机器和运输机器人)的物理状态和动态的明确约束和计算。决策是可行的,因为它们与瞬时物理状态一致,其效果通过真实(或模拟)物理实现。
此外,一些解决方案执行集中式计划(有时通过训练或模仿获得),并在线缓慢适应。其他方案使用完全分散的调度,可能会失去长期协调性。这就需要一个框架,将长期规划与现场决策联系起来,并根据机器和运输机器人的物理状态检查可行性。
作为回应,我们提出了一种新的具身多智能体调度框架,它将部分全局计划与实时本地决策相结合。每个制造实体都被建模为一个具身的智能体,包括具有真实动态和约束的物理身体,以及能够自主决策的智能组件。我们的核心创新在于全局-本地协作架构,其中长期全局计划提供初始指导,而本地具身智能体做出实时适应性决策。
我们工作的主要贡献包括:
  • 我们引入了一种全局-本地协作调度机制,将长期规划与实时执行联系起来。全局问题和滚动窗口本地问题共享相同的决策变量和时间索引,因此可以直接从部分全局计划构建滚动窗口,并随时间一致更新。
  • 我们将本地决策过程建模为一个具身的分散式部分可观察马尔可夫决策过程。物理状态更新(例如,可靠性/维护、电池/充电和无碰撞移动)被数学化表述,在执行前可以屏蔽不可行的动作。
  • 我们开发了一种具身MADRL调度算法。它在可扩展性和泛化能力上优于基线方法,得益于计划引导的滚动窗口、具身状态更新和带有异构自玩的动作屏蔽。
本文的其余部分组织如下:第2节回顾相关工作并强调研究空白。第3节介绍所提出的全局-本地调度公式和计划到执行的分解。第4节描述了具身系统模型和异构智能体动态。第5节介绍了EMADRL算法,包括感知、基于可行性的动作屏蔽和协调。第6节报告了实验设置和结果,包括基线比较、可扩展性和消融实验。第7节总结了本文并讨论了未来方向。

相关研究

关于车间调度的研究已经进行了半个多世纪,但大多数现有解决方案未能在不确定性下提供跨生产、运输、维护和能源维度的整体优化以及实时适应性。

全局和本地调度问题

第3.1节正式定义了全局调度问题(GSP),它生成全局范围内的调度计划。然后第3.3节的本地调度问题(LSP)通过基于GSP输出的短滚动窗口执行。这种分窗执行允许LSP结合更丰富的具身动态和不确定性,并生成物理上可执行的调度计划,而跨窗口的反馈使进展与长期完工时间目标保持一致。表2

具身智能体建模

我们采用具身视角:每个制造实体都具有物理动态和自主决策能力。每个实体都被表示为一个具身智能体:

基于具身的MADRL算法

许多MARL调度器基于简化的执行模型构建,并没有明确表示物理动态。我们将物理动态、主动感知和动态动作屏蔽集成到学习循环中,以便在退化、充电和空间冲突的情况下学习的策略仍然可行。为了方便起见,我们在本节中使用来索引智能体(机器和运输机器人)。Em=(Bo,Ag封装了具有动态和约束的物理身体,而Ag实现了在给定状态下采取行动的策略。我们考虑两种类型的个体:EmkM}km(机器)和EmlR}lr(运输机器人)。下标用于区分类型。每个个体
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号