面向建筑能源系统控制的可扩展物理信息多智能体强化学习

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Advances in Applied Energy》：Scalable Physics-Informed Multi-Agent Reinforcement Learning for Building Energy System Control

【字体：大中小】 时间：2026年06月06日 来源：Advances in Applied Energy 13.8

编辑推荐：

　　在保证热舒适的同时优化多区域建筑供热、通风与空气调节（HVAC）系统的能效是一项关键挑战，因为建筑在美国占总能耗的40%，在全球约占30%。尽管多智能体强化学习（multi-agent reinforcement learning, MARL）已开始用于建筑系

在保证热舒适的同时优化多区域建筑供热、通风与空气调节（HVAC）系统的能效是一项关键挑战，因为建筑在美国占总能耗的40%，在全球约占30%。尽管多智能体强化学习（multi-agent reinforcement learning, MARL）已开始用于建筑系统控制，但现有研究通常涉及少于10个智能体，尽管可获得环境模型却仍依赖无模型（model-free）方法，且缺乏真实建筑验证。本文提出了一种用于可扩展多区域控制的物理信息模型驱动多智能体强化学习框架。首先，研究人员开发了一个物理一致图神经网络（physics-consistent graph neural network, PCGNN），该网络结合组共享（group-shared）多尺度因果卷积与用于表征区域间热耦合的热扩散图层，从而实现可扩展的多区域温度预测。其次，研究人员为多智能体软演员-评论家（soft actor-critic, SAC）算法引入κ邻域截断（κ-neighborhood truncation），使每个智能体的评论家仅接收其κ跳邻域内的状态，在具有可证明近似保证的前提下，将评论家输入维度最高降低72%。第三，研究人员将所学习的动力学模型集成为可微世界模型（differentiable world model）用于策略优化，相较于无模型替代方案显著提高了样本效率。研究人员通过一个针对6个区域的114天仿真研究以及一个针对跨4层共18个区域的42天真实建筑部署对该框架进行了验证。动力学模型在所有区域上均实现了低于1.4°C的平均绝对误差（mean absolute error, MAE）。消融研究证实，基于模型的κ截断训练比无模型对应方法收敛更快且达到更高奖励。所部署的控制器在仿真和真实建筑研究中分别实现了15.7%以及35–70%的节能，同时仅带来适度的热舒适性下降。

本文发表于《Advances in Applied Energy》，聚焦于建筑能源系统中多区域暖通空调控制的可扩展性难题。研究背景在于，建筑能耗占比较高，而HVAC系统又是建筑中最主要的终端用能环节，因此在维持室内热舒适的同时降低HVAC能耗，是建筑低碳化与高效运行中的核心课题。传统基于规则的控制与比例–积分–微分（proportional-integral-derivative, PID）控制器通常采用固定设定值，适应性有限，容易导致多区域间能源浪费。模型预测控制（model predictive control, MPC）虽具备前瞻优化能力，但在多区域场景下需要反复求解优化问题，计算负担重，且常依赖凸化重构，可能带来信息损失和性能下降。近年来，强化学习（reinforcement learning, RL）在建筑控制中展现出较强潜力，但单智能体方法在多区域建筑中面临维数灾难，联合状态–动作空间随区域数呈指数级增长；多智能体强化学习（multi-agent reinforcement learning, MARL）虽然更适合分布式区域控制，但现有研究多停留在2–6个区域或少量子系统的规模，尚未有效解决大规模热耦合区域中的动力学建模、评论家网络扩展性、样本效率以及真实建筑部署验证不足等问题。正是在这一背景下，开展可扩展、物理一致且可真实部署的MARL研究具有明显必要性。

围绕上述问题，研究人员提出了一套集成式物理信息模型驱动MARL框架，核心由三部分构成：一是用于多区域温度预测的物理一致图神经网络（PCGNN）；二是引入κ邻域截断的多智能体软演员-评论家算法；三是利用已学习动力学模型进行策略优化的模型驱动训练机制。研究在两个不同尺度场景中验证：其一是波士顿一栋商业建筑的6区域仿真案例；其二是锡拉丘兹一栋4层18区域商业建筑的真实部署案例。结果表明，该框架不仅能保持较高的多区域温度预测精度，还能在控制层面实现显著节能。研究结论指出，PCGNN能够在保持物理一致性的同时实现跨区域可扩展建模；κ邻域截断可在具有理论保证的前提下降低评论家输入维数并提升训练效率；基于模型的MARL相较无模型方法收敛更快、奖励更高；真实建筑部署进一步证明，该方法可以在可接受的热舒适损失下获得显著能耗降低。这一研究的重要意义在于，为多区域建筑HVAC控制提供了一条兼顾物理机理、学习效率、可扩展性与工程落地性的技术路径。

就关键技术方法而言，研究主要采用了以下几类方法。首先，基于两栋商业建筑的历史运行数据，以15 min时间分辨率构建多区域动力学数据集，并采用训练/验证/测试划分进行模型开发。其次，构建PCGNN，将组共享多尺度因果1-D卷积与热扩散图层交替堆叠，以同时刻画区域内时序响应与区域间热耦合。再次，将建筑多区域控制表述为网络马尔可夫决策过程（network MDP），在多智能体SAC中引入κ跳邻域局部观测与截断评论家。最后，将训练好的PCGNN作为可微世界模型嵌入策略优化，比较模型驱动与无模型、截断与非截断配置的训练效果，并在真实建筑中通过BACnet/IP接入自动化系统进行42天交替部署验证。

以下结合论文结果部分的小标题对主体内容进行解读。

4.1.1. PCGNN Performance
研究人员首先在建筑1上评估PCGNN的预测性能。测试集为25天数据，采用自回归方式生成预测，即每一步预测温度作为下一步初始条件，这与MARL滚动控制时的实际使用方式一致。结果显示，6个建模区域的平均绝对误差（MAE）介于0.31–1.18°C之间，表明该模型能够较准确表征多区域温度动态。进一步的扰动分析中，研究人员将单一区域的辐射板负荷分别扰动至最大供热和最大供冷，而其他区域保持实测负荷不变。结果表明，模型预测的温度在最大供热下始终升高、在最大供冷下降低，且这种影响沿建筑邻接关系在空间上呈衰减传播。例如，走廊区域受扰动时，所有相邻区域均表现出响应；某些核心区域的扰动则会通过走廊进一步影响其他房间。该结果说明PCGNN不仅拟合了温度序列，而且学习到了符合热力学规律的区域热耦合机制。

4.1.2. MARL Performance
在建筑1仿真控制实验中，研究人员将MARL控制与建筑原有基线控制进行比较。MARL控制对象为5个办公区的辐射顶棚板负荷，走廊不参与控制。结果显示，基线控制下多个区域在人员占用开始后仍出现明显温度越界，主要因为水系统响应较慢，供热启动后需约30 min室温才开始回升。相比之下，MARL学会了提前预热，使室温在占用期来临前接近设定范围。对114天仿真周期统计后，基线控制下累计温度违规为7.57°C，而MARL下降至1.60°C，降幅达79%；总能耗由26,175 kWh降至22,053 kWh，实现15.74%节能。该结果说明，在具备准确动力学模型支持时，MARL可通过主动控制同时改善舒适性和能效。

4.2.1. PCGNN Performance
在更大规模的建筑2真实案例中，研究人员检验PCGNN能否扩展到18个区域、4层楼、包含跨楼层热耦合的复杂场景。结果表明，18个区域的测试集自回归预测MAE均低于1.4°C，大多数区域低于1.0°C。误差最低的区域为5号和6号，分别为0.65°C和0.86°C；误差最高的是17号和18号会议室，分别为1.40°C和1.30°C，论文将其与占用模式更动态相关联。总体来看，从6区域扩展到18区域后，模型精度未出现明显劣化，说明组共享因果卷积与热扩散图层的组合具有良好的尺度泛化能力。

4.2.2. MARL Performance
在建筑2的42天真实部署中，研究人员将MARL控制与基线控制按日交替运行，以减少天气差异造成的偏置。部署结果表明，多数区域在MARL下能够在绝大部分时间内维持在温度边界内。图示比较显示，MARL表现出明显的预测性控制特征：在占用开始前，房间温度已提前上升，早于基线控制。辐射板负荷比较进一步表明，智能体并非简单增加供热，而是学会了更高效的热量分配策略。尤其在三层，MARL对核心区6号房间施加更高供热负荷，再利用区域间传热为周边4、5、7、8、9号房间提供热调节，以更低总能耗获得整体舒适效果。这种策略并非人工预设，而是在多智能体协调下自发形成，反映出模型对建筑热网络结构的有效利用。

在性能量化方面，研究人员按照室外温度和太阳辐射构建天气分箱，对不同控制器在各分箱中的能耗和温度违规进行比较。结果显示，MARL在各天气条件下实现35.06%–69.67%的节能。尽管总体温度违规略高于基线，但论文指出这主要受到4个区域硬件异常的影响；排除故障区域后，基线与MARL的平均温度违规分别为0.32°C和0.49°C，说明MARL是在较小舒适性退化下换取了大幅节能。研究据此认为，真实部署验证了该框架可从仿真成功迁移至实际建筑运行。

5. Discussion
讨论部分首先分析了物理信息约束的作用。研究人员构建了一个去除热扩散物理结构、非负热传系数和物理损失项的消融模型，在建筑1上的各区域MAE均较PCGNN明显恶化。更关键的是，扰动分析表明该消融模型出现了物理不一致现象，例如增大供冷负荷反而预测温度升高，说明其通过伪相关拟合数据而违背基本热力学方向性。论文指出，这一问题对模型驱动RL尤为关键，因为策略梯度需通过动力学模型反向传播，若温度对控制输入的梯度方向错误，将直接诱导智能体学习到反向控制行为。因此，物理信息约束不仅提升精度，更为策略优化提供了结构性可靠性。

在训练效率方面，PCGNN采用标准PyTorch因果卷积和图扩散运算，替代了作者既往工作中人工定义神经元连接的结构。结果表明，6区域模型训练时间由原先超过3 h降至约30 min，18区域模型在6 h预测范围内约80 min、24 h预测范围内约96 min即可完成训练，体现出较好的可扩展性。对于控制算法，研究人员比较了4种MARL配置：无模型非截断、无模型κ截断、基于模型非截断、基于模型且κ截断。结果显示，“基于模型+κ截断”配置在5个随机种子下均表现出更快收敛、更高总奖励和更小方差；两类无模型方法则波动更大，且难以同时平衡能耗、室内环境质量（indoor environmental quality, IEQ）与动作平滑性。该结果支持了动力学模型与局部截断联合设计的有效性。

讨论还涉及数据质量与部署条件对RL控制的影响。对于建筑1，原始控制逻辑中冷热切换死区仅0.5°C，而室外温度传感器精度可达±1°C，导致测量数据中出现下午同一设定值下频繁冷暖切换的现象，造成能源浪费，也会误导RL训练目标。因此，温度边界的清洗是训练有效控制器的必要前处理。对于建筑2，研究人员发现3、13、17、18号区域表现欠佳并非算法失效，而是3号和13号区域的辐射板存在硬件故障，造成在阀门高开度下负荷反馈仍在制冷和供热之间波动。由于17号和18号位于13号上方，MARL尝试通过跨楼层热耦合进行补偿，导致局部过热。这一观察一方面证明智能体确实学习到了跨层热耦合，另一方面也表明算法无法完全抵消持续性设备故障。

在实际部署层面，论文还讨论了可交互恒温器、未来设定值可获得性、传感器稳定性与BACnet通信问题。对于建筑1，当状态中仅包含当前设定值时，MARL性能明显较差；加入未来8步设定值后，温度违规显著降低，说明在舒适需求变化较快的场景中，未来需求信息对策略学习十分重要。真实部署中，多数控制失败来自传感器断电、云端服务中断及BACnet顺序访问导致的通信拥塞，而非MARL本身。研究据此强调，先进控制算法的工程成败往往取决于建筑自动化基础设施的可靠性。

论文同时明确了适用范围与局限性。κ截断依赖网络MDP中的指数衰减性质，适用于通过建筑热邻接逐跳传播影响的系统；但若存在共享储能或集中式冷站等跨远距离直接耦合设备，则单纯依赖邻接图的局部截断可能不足，作者提出可考虑分层MARL作为扩展方向。当前研究仍存在四方面局限：其一，PCGNN训练所需的最小数据量尚未系统研究，且不同建筑间尚未验证迁移学习能力；其二，建筑1仅进行了仿真验证，尚缺乏真实部署；其三，建筑2真实部署周期仅42天，主要覆盖冬季工况；其四，尽管理论上可扩展至更大建筑，但本文最大仅验证至18区域，尚未在100+区域规模上进行实证评估。

结论部分可译述如下：本文提出了一种面向可扩展多区域建筑HVAC控制的物理信息模型驱动多智能体强化学习框架。该框架整合了用于多区域温度预测的物理一致图神经网络（PCGNN）、用于可扩展策略学习的κ邻域截断多智能体软演员-评论家算法，以及利用所学习动力学进行最优策略学习的模型驱动训练流程。PCGNN通过将组共享多尺度因果卷积与热扩散图神经网络层结合，取代了既往工作中手工连接的神经元结构，在数学等价的同时显著提升训练效率，并将可建模规模扩展到18个区域。模型在6区域建筑1和18区域建筑2上分别实现了低于1.18°C和1.4°C的MAE，扰动分析进一步证实其学习到了正确的控制响应方向和符合邻接结构的空间衰减热耦合。κ截断的模型驱动MARL相较无模型方法表现出明显优势：收敛更快、最终奖励更高，并将18区域案例中的评论家输入维数最高降低72%。在建筑2的42天真实部署中，MARL在不同天气条件下实现了35%–70%的节能，同时保持与基线相近但略有下降的热舒适。部署结果还表明，传感器可靠性、BACnet通信与硬件调试状态往往比控制算法本身更能决定真实建筑中的最终性能。总体而言，该研究证明了物理一致动力学模型与κ截断多智能体学习相结合，能够在真实建筑运行中发现并利用建筑热网络结构，实现具有工程可行性的高效节能控制。

联系信箱：

粤ICP备09063491号

热点排行