基于多策略深度强化学习的预制建筑装配调度多目标优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Building Engineering》：Multi-objective optimization of assembly scheduling in precast building construction using deep reinforcement learning

【字体：大中小】 时间：2026年04月12日 来源：Journal of Building Engineering 7.4

编辑推荐：

　　为解决预制建筑项目中工期、成本和约束冲突等多目标难以协同优化的问题，本文提出了一种结合多策略深度强化学习（DRL）与多目标进化算法（MOEA/D）的新型装配调度框架。该研究通过并行训练多个基于近端策略优化（PPO）的调度智能体，并利用带惩罚边界交叉的动态邻域MOEA/D演化策略，在真实项目中实现了高质量帕累托前沿的快速逼近，相比传统方法在95%的测试场景中取得了更高的超体积指标，且运行时间减半。该框架为预制建筑装配调度的多目标决策提供了高效、自适应的解决方案，对提升工程管理智能化水平具有重要意义。

在建筑行业迈向工业化的浪潮中，预制建筑以其工期短、成本低、安全性高、可持续性好等优势，逐渐成为传统现浇施工的重要替代。然而，这类项目涉及数百个预制构件的现场装配，其调度过程充满挑战：构件重量大、占地面积广，使得资源协调与吊装操作异常复杂；同时，工期、成本与多种现场约束（如构件安装顺序、结构干涉等）往往相互冲突，难以兼顾。传统依赖人工经验的调度方式不仅耗时费力，还容易出错，难以生成全局优化的施工计划。尽管已有研究尝试用启发式算法、进化算法等自动化方法进行调度优化，但它们大多将多目标线性加权为单一目标，只能给出一个折中方案，无法为决策者提供反映目标间权衡关系的多种帕累托最优解集。此外，元启发式算法计算开销大、适应性差，一旦项目条件（如资源配置）发生变化，整个优化过程就需推倒重来。面对这些瓶颈，深度强化学习（DRL）为序列决策问题提供了新思路，其在动态环境中通过试错学习最优策略的能力令人瞩目。但如何将DRL应用于预制建筑装配调度的多目标优化（MOO），并高效生成高质量的帕累托前沿，仍是该领域亟待填补的知识空白。本文发表在《Journal of Building Engineering》的研究，正是为了攻克这一难题。

为开展研究，作者团队主要采用了以下几种关键技术方法：首先，构建了基于多目标马尔可夫决策过程（MOMDP）的装配调度问题模型。其次，开发了多策略近端策略优化（PPO）框架，通过单纯形格子设计生成不同的权重向量，并行训练多个独立的PPO智能体，每个智能体优化工期、成本和约束违反三个目标的不同线性组合。智能体网络采用演员-评论家架构，并利用时序图网络（TGN）嵌入动态演变的调度状态信息。然后，提出了融合多目标进化算法基于分解（MOEA/D）的演化策略，对预训练智能体的演员网络参数进行演化，并引入了两项创新：仅演化演员网络参数以减少计算量，以及采用结合权重邻域与值邻域的动态邻域调整策略以增强搜索多样性。优化过程使用惩罚边界交叉（PBI） 方法进行标量化。研究在一个包含两层、每层36块墙板的中国真实预制建筑项目案例上进行了评估，并与经典的多目标优化算法非支配排序遗传算法II（NSGA-II） 进行了对比。

研究结果

•
提出的MOO框架概述：研究提出了一个两阶段框架。第一阶段并行训练多个PPO调度智能体，每个智能体针对一个特定的权重组合进行优化。第二阶段，将这些预训练策略的演员网络参数作为初始种群，利用改进的MOEA/D进行演化，最终逼近装配调度问题的帕累托前沿。
•
多策略PPO训练：研究详细设计了智能体的环境、动作空间、状态表示、奖励函数（包含时间、成本和约束违反三个分量）以及网络架构（使用TGN进行图嵌入，演员-评论家网络共享初始层）。通过并行训练，获得了覆盖不同偏好区域的一组初始调度策略。
•
带动态邻域的MOEA/D演化：在演化阶段，研究创新性地仅对演员网络参数进行交叉（算术交叉）和变异（多项式变异）。为克服传统MOEA/D固定邻域的局限，提出了动态邻域策略，即同时考虑权重向量的欧氏距离（权重邻域）和当前解在目标空间中的欧氏距离（值邻域）来构建交配邻域，并定期更新，从而更好地探索不规则形状的帕累托前沿。
•
案例评估与对比分析：在真实案例项目上的测试表明，所提出的PPO+MOEA/D框架在解决方案质量和计算效率上均显著优于传统的NSGA-II算法。具体而言，在95%的测试场景中，PPO+MOEA/D获得的帕累托前沿的超体积（HV） 指标高于NSGA-II，表明其前沿质量更优、覆盖范围更广。同时，PPO+MOEA/D的运行时间不足NSGA-II的一半，展现出更高的计算效率。此外，覆盖集（C-metric） 比较也显示，PPO+MOEA/D产生的解集能够支配NSGA-II产生的大部分解。

研究结论与讨论

本研究成功开发并验证了一个结合多策略深度强化学习与多目标进化算法的创新型框架，用于解决预制建筑装配调度的多目标优化问题。该框架的核心贡献在于：首次在考虑工期、成本和约束违反（包括优先安装重型大构件、避免构件干涉等）三个关键目标的前提下，为预制建筑装配调度生成了高质量的帕累托前沿，使项目决策者能够清晰地洞察不同目标之间的权衡关系，从而根据项目阶段或利益相关方偏好选择最合适的调度方案。其次，该框架通过并行训练DRL智能体与高效的MOEA/D演化相结合，有效克服了传统元启发式算法（如遗传算法）计算成本高、适应性差的缺点，在保证帕累托前沿逼近质量的同时，大幅提升了优化速度，显示出优越的计算效率。

研究结果证明了深度强化学习在多目标工程调度问题中的巨大潜力。所提出的动态邻域调整等策略，增强了算法在复杂、不规则解空间中的搜索能力。这项工作不仅为预制建筑施工的智能化调度提供了切实可行的工具，也为解决其他工程领域的多目标序列决策问题提供了可借鉴的方法论。未来研究可探索更高效的进化策略、自动化超参数调优，并尝试将该框架应用于更大规模或更具动态性的建设项目中，以进一步提升其解决方案的普适性和鲁棒性。

联系信箱：

粤ICP备09063491号

热点排行