一种基于代理式人工智能的物理信息驱动机器学习框架，用于实现电网交互式的低碳建筑运营

《Advances in Applied Energy》：An Agentic AI-Enabled Physics-Informed Machine Learning Framework for Grid-Interactive, Decarbonized Building Operations

【字体：大中小】 时间：2026年04月14日 来源：Advances in Applied Energy 13.8

编辑推荐：

　　江子欣 | 徐伟利 | 庞东美国雪城大学摘要迫切需要实现脱碳目标，这要求未来自主建筑能源运营模式发生根本性变革，从依赖人工的工程工作流程转向能够与基于物理现实的数字环境交互的智能代理。为了支持这一转变，本研究提出了一种基于智能代理的物理知识驱动机器学习（PIM

　　江子欣 | 徐伟利 | 庞东
美国雪城大学

摘要
迫切需要实现脱碳目标，这要求未来自主建筑能源运营模式发生根本性变革，从依赖人工的工程工作流程转向能够与基于物理现实的数字环境交互的智能代理。为了支持这一转变，本研究提出了一种基于智能代理的物理知识驱动机器学习（PIML）环境，用于可扩展的建筑能源建模、仿真、控制和自动化。该框架包括：（1）一个模块化且符合物理规律的PIML数字环境，涵盖建筑、供暖、通风和空调（HVAC）系统以及分布式能源资源（DER），以支持与电网交互的能源管理；（2）一个由11个专业代理和72个模型上下文协议（MCP）工具组成的智能代理层，以实现多步骤能源分析的端到端执行。一个代表性案例研究展示了如何在包含20栋建筑的住宅集群中，通过多领域、多代理协作来评估系统改造和控制升级对能源使用、运营成本、热舒适度和灵活性的影响。此外，还进行了大规模基准测试（6,156次运行），系统地评估了工作流程在准确性（规划、代理选择、工具选择和参数提取）、令牌消耗、执行时间和推理成本方面的表现。测试结果量化了智能模式设计、模型规模配置、任务复杂性以及协调器与专业代理协作对整体性能的影响。本研究总结了四个关键经验教训，并指出了六个局限性及其对应的未来研究方向，以指导可靠智能代理系统在真实建筑能源应用中的开发。这项工作为在脱碳和电网交互式建筑能源运营中部署智能代理奠定了可扩展的、基于物理规律的基础，并明确了朝向自适应驱动建筑智能的关键研究方向。

缩写
分布式能源资源（DERs）
模型上下文协议（MCP）
供暖、通风和空调（HVAC）
代理对代理（Agent-to-Agent）
人工智能（AI）
建筑信息建模（BIM）
模型预测控制（MPC）
建筑管理系统（BMS）
物理知识驱动机器学习（PIML）
性能系数（COP）
大型语言模型（LLMs）
单代理单工具（Single-Agent Single-Tool）
集中式单阶段（Centralized Single-Stage）
C-1
单代理多工具（Single-Agent Multi-Tool）
C-2
多代理单工具（Multi-Agent Single-Tool）
分布式（Decentralized）
多代理多工具（Multi-Agent Multi-Tool）
推理+行动（Reasoning+Acting）
中型（Medium）
大型（Large）
特大型（Extra-Large）
XLS
小型（Small）
使用时间（Time of Use）

符号说明
|·| 基数集大小（Cardinality set size）
? 子集（Subset）
∩ 交集（Intersection）
Texp 预期工具（Expected tool）
Tact 实际工具（Actual tool）
Gexp 预期代理（Expected agent）
Gact 实际代理（Actual agent）
Sexp 预期计划轨迹（Expected plan trace）
Sact 实际计划轨迹（Actual plan trace）
Kexp 预期工具键（Expected tool key）
Kact 实际工具键（Actual tool key）
Vexp 预期工具值（Expected tool value）
Vact 实际工具值（Actual tool value）
gi 一步代理选择（One step agent selection）
Ti 一步工具使用（Ti one step tool use）
Acct 工具准确性（Acct tool accuracy）
Acc 代理准确性（Acc agent accuracy）
Accplan 计划准确性（Acc plan accuracy）
Acckey 关键准确性（Acckey key）

1. 引言
1.1 背景
建筑是最大的能源消费者之一，占全球能源总消耗量的三分之一以上[1]，因此在实现2050年净零排放目标中发挥着核心作用。除了是主要的能源消耗者外，建筑还被越来越认为是活跃的能源枢纽[2]，与分布式能源资源、电网、供暖、通风和空调系统，甚至通过电动汽车集成后的交通系统紧密相连。因此，建筑不再只是孤立的终端使用实体，而是更广泛的电网交互式和脱碳能源系统中的关键组成部分。此外，建筑是人类生活的主要室内环境，人们几乎90%的时间都在其中度过，这使得建筑不仅对能源效率至关重要，也对舒适度、健康、福祉和韧性具有重要意义。
因此，现代建筑已经发展成为一个复杂的生态系统[3]，涉及多尺度、多组件、多利益相关者和多目标的互动。这种日益增加的复杂性给建模、控制、诊断、分析和评估带来了重大挑战。传统上，这些任务严重依赖于专家知识、大量的时间投入和重复的手动工作[2,4]。例如，David等人[5]报告称，在一个建筑中部署模型预测控制（MPC）需要239天的人工努力。然而，要实现2050年的净零排放目标，美国在未来25年内每天需要有超过10,000栋建筑实现脱碳[6]。这种紧迫性要求我们必须进行一次根本性的范式转变，开发出一个统一、可扩展且稳健的框架，能够在互联的建筑能源应用中支持自主决策，从而减少人工投入并适应不断变化的运营条件。
为此，我们开发了一个在物理知识驱动的学习环境中运行的结构化智能代理框架，用于电网交互式和脱碳建筑能源运营。在这个框架中，智能代理负责自主感知、推理、规划和行动，而基于物理的知识环境则为与建筑能源系统、HVAC、DER和电网信号在物理约束下的交互提供了操作背景。这两个组件的结合旨在支持在现实和动态条件下实现能源高效控制、需求响应、灵活性评估和低碳建筑与电网协调等应用。

1.2 相关研究
大型语言模型（LLMs）的最新进展通过改变语言处理方式、知识检索方式和跨不同领域的任务自动化方式，显著重塑了人工智能[7,8]。早期的LLM应用主要依赖于基于提示的生成方式，模型根据用户查询生成文本输出。虽然这些系统在信息检索和内容创建方面非常有效，但它们缺乏与外部环境交互、访问工具或执行多步骤决策过程的能力[9,10]。为了解决这些限制，研究人员引入了支持工具的AI代理，将LLM推理与外部API、软件工具和结构化工作流集成起来，以支持更自主的任务执行[11]。尽管这些基于代理的系统代表了重要的进步，但最近的研究指出了在可扩展性、长视野推理和复杂、动态及多代理场景中的协调方面的挑战[10,12]。这些局限性促使了一个更先进的范式的出现，通常被称为智能代理，其中多个专业代理通过规划、推理和适应性工具调用执行来共同完成高级目标[13,14]。这种多代理智能架构在包括医疗保健[15]、材料科学[16,17]、机器人[18]、教育[19]和电力系统[20]在内的多个领域得到了广泛探索，展示了在复杂决策、工作流自动化和跨领域协调方面的巨大潜力。
受这些进展的启发，研究人员开始在建筑领域探索LLM驱动的方法。几项综述研究[21], [22], [23]总结了在建筑能源模型生成[24,25]、建筑信息建模[26]、生命周期评估[27]、建筑能源管理[28,29]、语义建模[30], [31], [32]、故障检测与诊断[33]、城市规划[34,35]、占用行为建模[36,37]、室内空气质量评估[38]和代码合规性[39,40]等领域的最新进展。这些应用展示了LLMs在减少人工努力和提高建筑工程工作流程可访问性方面的潜力。
然而，上述大多数研究将LLMs视为基于生成能力或工具支持的特定任务助手。在建筑能源领域，系统运行在较大的空间尺度上，具有较长的生命周期，涉及建筑之间、HVAC设备、分布式能源资源和电网之间的紧密耦合的能源流动。这些系统需要持续的感知、长视野规划、异构子系统间的协调以及在不确定性下的自主决策。这些以能源为中心的需求超出了传统的基于提示的接口，突显了需要能够与动态环境交互的智能代理架构的必要性。
一些最近的研究探索了基于LLM的建筑领域多代理框架，如表1所示。这些研究在能源Plus IDF模型生成、建筑能源仿真、负荷预测、改造分析、建筑信息建模和家庭能源管理等领域展示了有前景的能力。然而，仍存在几个重要的局限性：
- 首先，大多数现有研究采用预定义的协调结构，对复杂和动态的用户任务的适应性有限。特别是，协调策略的设计以及不同协调配置对系统性能的影响尚未得到充分探索。
- 其次，以能源和控制为导向的应用仍需进一步研究。大多数现有案例研究集中在能源模型生成、仿真设置或语义导向任务上，而不是面向交互式能源系统的运营决策。尽管这些工作流程对模型开发和分析很有价值，但它们本身并未针对交互式控制决策进行设计。此外，支持建筑-HVAC-DER协同运行的集成运行时环境仍然非常缺乏。
- 第三，对智能代理性能的系统的基准测试仍然有限，难以全面评估其可靠性、可扩展性和计算效率，而这些对于建立信任和透明度至关重要。

表1. 建筑领域中现有的基于大型语言模型的多代理框架

| 应用 | 规模 | 协调逻辑 | 工具 | 运行时环境 | 代理数量 | 评估方式 |
|------|------|------|------|--------|---------|-----------|
| Zhang, Ford, Chen, 和 Chen, 2025 [41] | EnergyPlus | IDF生成 | 单个建筑 | 预定义结构 | 无正式工具接口 | EnergyPlus | 4 | 成功率 |
| Quan, Xiao, Gu, 和 Xu, 2025 [42] | 建筑能源仿真 | 单个建筑 | 预定义结构（带动态路由） | 定制工具箱 | EnergyPlus | 5 | 时间、准确性和内容丰富性、成本 |
| Li, Zheng, Li, Xing, 和 Wang, 2026 [43] | 建筑负荷预测 | 单个建筑（3个数据集） | 预定义结构 | 无正式工具接口 | 4 | 预测准确性（非智能相关） |
| Lu 等人, 2025 [44] | 建筑能源仿真和改造分析 | 单个建筑 | 预定义结构 | 定制工具箱 | Openstudio | 4 | 校准准确性（非智能相关） |
| Dong, Zhan, Hu, Doe, 和 Han, 2025 [45] | 建筑信息建模 | 基于AutoGen对话工作流 | Revit API | Autodesk Revit | 5 | 准确性、执行成功率、时间、成本 |
| Makroum, Zwickl-Bernhard, 和 Kranzl, 2025 [46] | 能源管理 | 单个建筑 | 动态协调 | 定制工具箱 | 4 | 时间、成本、准确性、使用的工具、迭代次数 |
| Xu, Wan, Goel, 和 Antonopoulos, 2026 [47] | 建筑能源仿真 | 单个建筑 | 动态协调 | 定制MCP工具箱 | OpenStudio | 8 | 时间、令牌数 |
| 本研究 | 建筑能源建模和控制优化 | 带有HVAC-DER系统的建筑群 | 动态协调 | 72个定制MCP工具箱 | BESTOpt | 11 | 任务成功率、工具调用准确性、规划正确性、令牌数、时间、成本 | 6,156次运行（54个案例×3种多代理模式×36种配对+54种ReAct模式×6个模型） |

注：
“运行时环境”指的是代理交互的仿真/执行后端。“工具”指的是代理可调用的接口。
这些局限性推动了针对智能建筑能源建模、控制和优化的智能代理框架的开发，该框架由一个结构化的基准测试支持，用于评估其可靠性、可扩展性和计算效率。

1.3 贡献
为了解决上述挑战，本研究开发了一个用于智能建筑能源运营的智能代理框架，该框架由先前研究中开发的模块化物理知识驱动运行时环境（BESTOpt [51], [52], [53]）支持。本研究的主要贡献如下：
1.3.1 基于物理知识驱动的多代理智能代理，用于智能建筑控制运营
我们开发了一个由顶级协调器和11个领域特定专业代理组成的多代理智能代理框架，这些代理通过72个MCP工具与BESTOpt物理知识驱动的运行时环境进行交互。在该架构中，智能代理层负责高级任务规划、工作流协调和工具调度，而PIML运行时环境则为建筑与电网建模、控制、仿真和能源性能评估提供了符合物理规律且数据高效的执行基础。除了将代理框架与控制导向的运行时环境集成外，本研究还探索了不同的协调模式，包括两阶段集中式设计，以提高对复杂建筑能源任务的适应性和效率。该框架支持建筑、HVAC、分布式能源资源（DER）和电网交互的集群级建模、控制和优化。
1.3.2 大规模基准测试，用于评估智能代理框架的设计和性能
除了框架实现外，本研究还建立了一个结构化的基准测试，系统地研究了协调架构、LLM模型能力和任务复杂性对智能代理性能的影响。该基准测试包括54个标准化测试案例，涵盖了四种工作流程复杂性水平（单/多代理×单/多工具），并在36种协调器-专业代理模型配对和四种智能模式下进行了评估。首先通过一个包含20栋建筑的案例研究展示了其灵活性潜力，随后进行了包含6,156次运行的大规模基准测试。性能评估使用了包括任务成功率、工具调用准确性、规划正确性和计算开销（令牌数、运行时间和成本）在内的定量指标，为建筑能源环境中的智能代理行为提供了实证见解。
本文的其余部分围绕本研究的主要研究目标展开。第2节介绍了所提出的智能代理驱动的PIML框架及其相关的评估设计，阐明了实验设置的构建方式，以评估其实际适用性和框架性能。第3节报告了结果：首先，通过一个案例研究评估该框架是否能够自主执行实际的端到端建筑能源分析工作流；其次，通过大规模基准测试研究了智能模式、模型配置和任务复杂性对框架准确性、效率和可靠性的影响。第4节基于这些发现总结了关键经验教训，指出了当前的限制，并讨论了未来的研究方向。最后，第5节总结了本研究对智能建筑运营中智能代理的主要结论和更广泛的影响。

2. 方法论
图1展示了所提出的智能代理驱动的PIML框架的整体结构，用于自主占用-建筑-HVAC-DER-电网协调。该框架由两个紧密耦合的层组成：（1）执行目标驱动的推理和任务调度的多代理智能代理决策层；（2）在BESTOpt平台上实现的物理知识驱动的运行时环境，为决策执行提供了现实、适应性和符合物理规律的仿真空间。这两个层通过标准化的MCP进行通信，实现了智能代理与底层物理系统模型之间的无缝交互。在本节中，我们详细介绍了该框架的架构、工作流和通信机制，重点介绍了智能代理和PIML环境如何共同实现复杂建筑能源系统的自主端到端决策。

下载：下载高分辨率图像（843KB）
下载：下载全尺寸图像
图1. 智能代理驱动的PIML框架的整体架构，用于自主协调包括协调器、专业代理、MCP工具以及BESTOpt运行时环境。2.1. 多代理智能体AI框架所提出的智能体AI框架实现为一个模块化的多代理系统，支持自主推理、规划、工具执行和迭代适应。该系统采用分层组织结构，包括：（1）用于用户交互的礼宾代理；（2）用于全局规划和协调的协调器代理；（3）用于特定领域操作的专家代理集群（例如建筑、暖通空调、分布式能源资源、仿真、比较）。所有代理通过实时的MCP与运行时环境进行通信，MCP将环境功能暴露为标准化的可调用工具。这种设计使得在统一的运行时循环中能够协调工作流程，涵盖建筑建模、控制配置、仿真执行和性能评估。2.1.1. 操作工作流程和执行逻辑系统操作逻辑分为两个阶段：初始化和运行阶段，如图2所示。• 初始化阶段：框架首先启动MCP服务器，将运行时环境功能注册为工具接口。然后MCP客户端连接到服务器，查询可用工具，并构建工具索引以用于后续路由。在当前实现中，我们开发了72个MCP工具接口，涵盖建筑配置、暖通空调控制、分布式能源资源管理、仿真、分析和可视化。补充材料S1总结了详细的工具信息，包括工具列表（S1.1）和一个工具规格示例（S1.2）。接下来，所有基于大型语言模型的代理通过基于YAML的代理配置清单（代理卡片）进行实例化。当前设置中定义了11个专业代理（代理列表见S2.1）。每个代理卡片指定了代理的身份（名称/角色）、能力范围、授权工具、推理风格和操作约束。这种代理卡片设计灵感来自Google ADK风格的代理配置[54]，同时进行了定制以支持BESTOpt的领域分解和MCP工具注册。代理卡片模式和一个代表性的YAML示例见S2.2。一旦建立了工具注册表、通信链接和代理池，框架就进入运行阶段。• 运行阶段：在运行阶段，框架通过MCP工具调用，在用户、礼宾代理、协调器和专业代理池之间保持闭环交互。工作流程从礼宾代理开始（详见S3.1），它处理自然语言通信，重新表述模糊的指令，并将结构化任务描述传递给协调器。协调器作为中央决策者和任务管理者。具体来说，协调器（1）解释总体目标；（2）推理任务依赖性和工具先决条件；（3）生成包含明确代理分配的多步骤执行计划；（4）将步骤级任务分配给专业代理执行。所有步骤完成后，协调器汇总中间输出，在有关键数值结果时合成执行摘要，并将最终响应返回给礼宾代理，礼宾代理再将结果呈现给用户。作为框架的核心，协调器工作流程如图2所示，我们实现了四种智能模式。- 分布式智能（图2A）。一个轻量级协调器生成高级计划，指定任务序列、分配的代理和预期结果，但不规定详细的工具使用或参数值。然后每个专业代理执行自主执行：从授权的工具集中选择合适的工具，配置参数，执行MCP工具调用，并合成步骤级结果。其主要作用是确保全局排序和依赖结构，而工具选择和参数化则委托给领域代理。分布式协调器提示见S3.2，相关专业代理提示见S3.3。- 集中式智能（图2B）。与分布式模式不同，集中式智能生成完全指定的执行计划。除了（1）负责代理、（2）任务描述、（3）明确的步骤依赖性外，它还提供（4）协调器指导，其中编码了工具级指令，包括选定的工具、结构化参数字段、预期输出和验证检查。在我们的实现中，协调器通过将工具模式（参数名称、类型、所需标志和语义描述）整合到规划提示中来构建这些详细指令。然而，随着工具和代理数量的增加，为所有工具和代理提供完整模式可能会显著增加提示长度和规划复杂性。为了缓解这个“提示爆炸”问题，我们开发了一阶段与两阶段集中式规划。在一阶段规划中，协调器接收所有可用工具和代理的完整描述和模式，并一次性生成详细计划。在两阶段规划中，协调器首先仅使用最小的代理/工具元数据（代理身份和工具名称）进行轻量级路由，生成识别所需代理和工具的高级计划。在第二阶段，协调器仅获得选定工具的模式，然后填充工具参数、预期输出和验证逻辑来完成计划。集中式协调器提示见S3.4，相关专业代理提示见S3.3。- 单代理ReAct（推理+行动）（图2C）。我们还使用ReAct（推理+行动）范式[11]开发了一个单代理基线。在这种模式下，一个通用代理接收完整的用户请求以及访问所有72个MCP工具的权限，没有明确的协调器-专业代理层次结构。代理在推理步骤和工具执行之间迭代切换，自主决定调用哪些工具、以什么顺序以及使用什么参数。与多代理模式相比，这种配置作为一个简化基线，用于评估架构设计和协调策略对规划质量、执行稳定性和整体系统性能的影响。详细提示见S3.5。下载：下载高分辨率图片（797KB）下载：下载全尺寸图片图2. 智能体AI支持的PIML框架的初始化和运行工作流程，从任务解析和代理初始化到规划、执行和结果合成。2.1.2. 适应、验证和重试策略为了提高对推理和执行故障的鲁棒性，框架包含了结构化的适应、验证和重试机制。这些包括：（1）动态代理生成和适应；（2）代理卡片和工具验证；（3）具有步骤级和工具级恢复的两级重试策略。详细技术描述见附录A1，重试工作流程见图A1.2.1.3. 通信和协调机制所提出的框架采用分层通信架构，以实现用户、LLM代理和BESTOpt运行时环境之间的协调交互。该架构包括三个互补组件：（1）代理对代理（A2A）通信协议，用于专业代理之间的协作；（2）MCP，用于结构化的代理-环境交互；（3）共享BUS，作为运行时消息的骨干。概念上，A2A和MCP规定了哪些实体进行通信以及消息的结构，而BUS提供了传输、路由和记录消息的底层通道。这些机制的详细描述见附录A2.2.2. BESTOpt：一个模块化的、基于物理的运行时环境，用于智能体决策执行如图1右侧面板所示，BESTOpt作为所提出的智能体AI-PIML框架的基于物理的运行时环境（“主体”）。它提供了一个模块化且基于物理的平台，用于多领域建筑能源系统的集成建模、控制和优化，包括数据驱动的干扰模块（占用、天气和价格）[48,49]、基于PIML的建筑和暖通空调动态模块，以及基于物理的分布式能源资源模块[50]，这些模块由能量平衡原则管理。通过实现系统状态、控制动作和外部干扰之间的闭环执行，BESTOpt提供了一个可扩展的测试平台，用于评估天气、占用、控制策略和能源技术如何共同影响建筑能源系统的运行、运营成本、热舒适性和灵活性。详细的模型推导和验证研究可以在先前的工作中找到[[51], [52], [53]]。本节简要介绍了BESTOpt的建模基础，并解释了它如何与智能体AI层集成。2.2.1. 建模基础为了理解设计原则，BESTOpt通过三个关键设计机制进行了总结：• 分层模块结构BESTOpt采用可扩展的集群-领域-系统/建筑-组件层次结构。集群定义了整体协调边界（例如邻里、校园、区域），可能包括多栋建筑、暖通空调系统和分布式能源资源资产。中间领域层通过能量路径（例如热能、电能和水能领域）组织交互。在每个领域内，BESTOpt将物理实体表示为系统/建筑（例如暖通空调厂、分布式能源资源系统、单个建筑），这些实体进一步分解为可控制组件（例如线圈、风扇、电池、电动汽车），从而在统一的结构内实现系统级协调和设备级控制。• 统一的数据类型和流BESTOpt使用统一的状态-动作-干扰-观测表示法来标准化运行时信息交换。状态描述了内部系统动态，如区域温度、电池状态；动作代表控制决策，如设定点调整或能源调度；干扰捕获外部驱动因素，如天气、价格和占用；观测包括用于监控和决策的测量/推断/预测信息。这种设计实现了结构化的双向数据流，其中组件级变量向上聚合用于系统/集群推理，而高级目标和决策则向下分解为设备级命令。• 模块类型和执行逻辑BESTOpt整合了三类模块：动态模块、控制器模块和干扰模块。所有模块遵循统一的执行接口（初始化-重置-步骤），并在每个仿真时间步同步。具体来说，干扰模块更新外部信号，如天气条件、占用行为和其他外部驱动信号。控制器模块根据观测、目标和控制逻辑计算系统动作，并可以支持不同的决策策略，如以占用为中心的基于规则的控制、模型预测控制（MPC）、直接控制（DPC）和强化学习（RL），用于在多个目标下的建筑运营和能源管理。动态模块通过根据当前条件和控制动作更新系统状态来表示物理系统的演变。这些模块共同使BESTOpt能够作为一个实时、交互式的运行时环境，实现闭环自主性。2.2.2. 与智能体AI的集成在本研究中，仿真从标准的BESTOpt参考配置开始初始化，这些配置在分层运行时结构中编码了建筑信息、暖通空调和分布式能源资源系统配置以及仿真设置，如图S4.3所示。这些模板作为结构化的基线模型，类似于EnergyPlus DOE原型建筑[56]。用户请求通过MCP工具（如building_add、hvac_add、der_add等）转换为这些参考配置的参数化修改，通过添加实体或修改组件参数来更新配置状态，而验证工具确保在运行时执行之前标识符、单位和所需字段保持一致。每个工具暴露了一个机器可读取的输入模式（基于JSON），使代理能够将自然语言意图映射为结构化的工具参数。一个示例规格（hvac_add）见S1.2。基于更新后的配置，BESTOpt通过内置功能在分层运行时结构中实例化相应的动态模块，允许在基于物理的环境中执行仿真，而无需代理直接从自然语言或非结构化的建筑管理系统（BMS）数据构建物理模型。2.3. 案例研究和评估为了展示所提出的多代理智能框架的能力并验证其性能，我们首先展示了一个涉及20栋建筑住宅集群的需求响应的实际能源应用，其中提出的工作流程与传统的建模和评估流程进行了比较。在此案例研究之后，进行了大规模的基准测试，以系统地研究在不同场景下影响智能体框架设计的关键因素。2.3.1. 住宅集群的需求响应评估随着可再生能源资源的日益普及，需求响应评估变得越来越重要[57]。传统上，评估建筑集群的灵活性潜力需要手动开发和校准建筑能源模型，然后集成光伏-电池系统并实现控制算法来评估系统性能。这个过程通常需要大量的人工工作和反复的工程调整。为了检验所提出的框架是否可以简化这一工作流程，我们使用亚利桑那州的一个住宅数据集进行了案例研究，该数据集包含了2013年5月1日至2019年4月30日期间13,279名住宅用户的电力流动记录（每小时输送到和从电网输出的kWh）。关于该数据集的详细描述见我们之前的研究[58,59]。基于这个数据集，我们开发了来自DOE原型建筑的EnergyPlus模型，并使用生成的合成运行数据来校准以控制为导向的3R2C热模型，并在我们的先前工作中评估了光伏-电池系统的灵活性潜力[60,61]。在这项研究中，使用相同的合成数据集，随机抽取了20栋建筑作为比较评估的输入。目的是评估不同的需求响应措施如何影响能源消耗、运营成本、热舒适性和电网侧的灵活性指标，包括峰值需求减少和负载转移比率。这些评估指标的详细公式在附录A3中提供。考虑了五种情景：
- **基线**：20栋建筑，没有集成光伏（PV）、电池或电动汽车（EV），并且热泵的性能系数（COP）默认为3.0。
- **预冷却**：在高峰时段之前应用2小时的预冷却策略，冷却设定点偏移2°C。
- **热泵升级**：提高热泵效率，COP增加到4.5。
- **电动汽车集成**：每户家庭配备一辆60千瓦的电动汽车（EV）。
- **光伏+电池安装**：安装5千瓦的屋顶光伏系统，并搭配20千瓦的电池。

该研究不是通过手动开发模型、实施控制策略和构建每个情景的比较分析来进行的，而是通过向所提出的框架提出自然语言查询来启动的：

“我管理一个有20户家庭的住宅社区。我想了解在夏季（7月至8月）如果（1）应用2小时的预冷却策略（高峰前偏移2°C），（2）将现有的暖通空调（HVAC）系统升级到COP 4.5，（3）每户家庭采用一辆60千瓦的电动汽车，或者（4）安装5千瓦的屋顶光伏系统和20千瓦的电池，能源消耗、运营成本、热舒适度和电网侧灵活性指标将如何变化。”

编排器将这种高层次的“假设”请求转化为可执行的评估工作流，自动生成基线和所需配置，运行模拟，计算标准化的绩效指标，并产生跨情景的比较结果。在这个案例研究中，采用了具有两阶段推理的集中智能模式，其中GPT-5.2作为编排器模型，以及一个40亿参数（4B）规模的模型用于专业代理。

2.3.2. 基准评估设计
除了代表性的案例研究之外，严格的评估还需要一个基准套件，以系统地测试框架在多种情景下的性能。我们开发了一个包含54个不同测试用例的基准，这些测试用例在36种模型配置和四种智能模式下进行了评估。以下小节描述了（1）测试用例的分类，（2）带有预定义真实预期值的标准化测试用例的构建，以及（3）用于评估准确性、效率和资源消耗的评估指标。

2.3.2.1. 基准配置
基准配置沿着三个维度定义：测试用例分类、大型语言模型（LLM）模型配置和智能模式。
（1）**测试用例分类**
为了系统地改变工作流复杂性，测试用例沿着两个正交维度组织：代理复杂性（单一代理 vs. 多代理）和工具复杂性（单一工具 vs. 多工具）：
- **单一代理单一工具（SAST）**：一个专业代理调用一个工具来完成请求。
- **单一代理多工具（SAMT）**：一个代理依次协调多个工具的调用。
- **多代理单一工具（MAST）**：多个专业代理协调，每个代理调用一个工具。
- **多代理多工具（MAMT）**：多个代理协调，每个代理可能调用多个工具。

（2）**LLM模型配置**
为了研究模型能力与框架性能之间的关系，我们定义了一个涵盖六个层次的模型能力矩阵。如表A1所示，基准评估了所有36种编排器和专业代理模型配对组合。对于商业API，我们选择了GPT-5.2，这是OpenAI的最新模型，具有最先进的推理和工具使用性能[62]，以及GPT-4o-mini，这是一个广泛采用的成本效益更高的替代品，成本比其前代产品低60%以上[63]。对于本地部署，我们选择了Qwen3密集模型系列[64]，它在开放权重模型中取得了最先进的结果。我们选择了四种规模（17B、4B、8B、14B），因为这些模型可以在配备4-12 GB VRAM的消费者GPU上使用标准量化技术运行[65]，代表了最可行的本地部署场景。

（3）**智能模式配置**
我们总结了四种智能模式在三个维度上的主要区别：决策位置（哪个组件选择工具和参数）、模式暴露（规划者可以获得什么信息）和控制流（规划和执行在运行时如何路由），如表2所示。在集中模式下（C-1、C-2），编排器指定工具调用和参数；代理只进行验证和执行。在分散模式下，编排器处理任务分解，而代理通过独立的LLM调用自主选择工具。ReAct基线完全绕过了编排，将所有决策委托给一个通用代理。C-1和C-2在模式暴露方面有所不同：C-1在一个规划调用中提供完整的工具模式，而C-2在两个阶段逐步披露。

表2. 四种智能模式（C-1、C-2、D、ReAct）在规划阶段、路由逻辑和代理协调结构方面的架构比较。

| 模式 | 决策位置 | 模式暴露 | 控制流 |
|--------------|-----------------|-----------------|-----------------|
| C-1（集中式，一步） | 编排器 | 所有工具的完整模式在一次调用中 |
| C-2（集中式，两步） | 编排器 | 分阶段披露完整模式 |
| D（分散式） | 代理 | 代理自主选择工具 |
| ReAct（单一代理） | 通用代理 | 在单一代理中进行全部决策 |

2.3.2.2. 基准测试用例结构
每个基准测试用例都被定义为一个结构化对象，包含用户请求、预期的执行行为和用于评估准确性的真实值，如表A2所示。测试用例基于工程工作流的领域知识构建，以确保真实性和覆盖范围。S5中提供了一个详细的示例。

2.3.2.3. 基准评估指标
基准记录了四个维度的性能：准确性、时间、资源使用和成本[66,67]，如表A3所总结。准确性在四个层面进行评估，包括工具选择、代理选择、计划正确性和参数提取。时间指标包括总运行时间、计划时间、执行时间和合成时间。资源使用通过编排器和专业代理的令牌消耗来衡量。成本根据各自的定价方案分别计算编排器和专业代理的调用成本。详细计算可以在附录A6中的方程A7到方程A11中找到。

3. 结果
3.1. 20栋建筑集群的需求响应和灵活性性能
为了执行上述需求响应任务，编排器生成了一个包含10个代理的27步执行计划（完整的推理序列和最终响应在S6中提供）。图3展示了一个代表性的全天模拟，以说明BESTOpt在多种控制和分布式能源资源（DER）情景下协调多个建筑的热力和电气运行的运行能力。具体来说，子图（a）显示了区域空气温度；（b）和（c）显示了暖通空调供应温度和气流速率；（d）显示了电力负荷分解；（e）比较了五种情景下的电网净负荷。

结果表明，BESTOpt成功地在统一的运行循环中协调了热力和电力调度，使得不同操作措施对能源使用、成本、舒适度和灵活性的影响可以定量比较。其中，预冷却将峰值负荷减少了5.1%，高峰时段的能源消耗减少了7.3%，同时提高了13.8%的舒适度。热泵升级使总能源消耗减少了2.5%，成本减少了2.3%，而没有影响热舒适度；电动汽车集成使日常能源消耗和峰值负荷增加了一倍多；光伏+电池安装减少了高峰时段的电网进口，并将电网灵活性指数从0.63提高到1.00。尽管由于电池放电调度，日常成本减少了11.9%，但峰值负荷增加了。然后我们在图4中展示了两个月模拟期间的整体灵活性性能。

- **预冷却**将峰值负荷减少了4.7%，高峰时段的能源消耗减少了7.2%，同时减少了15.4%的不适感。由于运行时间延长，总能源消耗略有增加（约1.2%）。
- **热泵升级**使总能源消耗减少了2.6%，成本减少了2.4%，但灵活性提升有限。
- **电动汽车集成**使总能源消耗增加了18.0%，峰值负荷增加了100.2%，同时略微降低了电网灵活性指数。这表明不受控制的电动汽车充电可能会降低系统级别的灵活性。
- **光伏+电池安装**实现了最强的灵活性提升。例如，在高峰时段，电网进口减少了100%，总电网进口减少了14.5%，运营成本减少了27.7%，电网灵活性指数从0.63提高到了1.00，表明与高峰时段的电网依赖性脱钩。

图4. 7月至8月期间20栋建筑集群的整体灵活性性能，包括需求减少潜力、峰值负荷转移和成本节约，在预冷却、热泵升级、电动汽车采用和光伏-电池情景下。

注：1-5分别代表基线、预冷却、热泵升级、电动汽车集成和光伏+电池。
总体而言，基于代理的AI支持的BESTOpt框架在自动化多建筑建模和协调操作以应对实际能源挑战方面表现出强大的能力。生成的执行计划与预期的工程工作流程非常吻合，并产生了一致的结果。与手动设计的计划相比，代理生成的工作流更加全面，包括额外的验证步骤（例如，调用配置代理来查询和验证可行性）。该框架的性能也与我们之前的案例研究[50,60,61]的结果一致。

3.2. 基准评估结果
3.2.1. 智能模式对基准性能的影响
图5量化了智能模式设计对基准性能的影响，包括准确性、令牌使用、运行时间和推理成本。所有值报告了整个基准套件的平均值，误差条表示通过学生t分布在每种模式内所有运行中计算出的95%置信区间。对于C-1、D和ReAct模式，观察到的标准差很大（σ ≈ 0.44–0.49），因为每个模式组汇总了从qwen3:1.7B到GPT-5.2的所有36种模型组合的运行。而C-2表现出较低的方差（σ ≈ 0.25–0.27），表明两阶段规划提高了平均准确性和结果一致性。
- **准确性**：如图5（a）所示，C-2在工具选择、代理选择、计划和参数提取方面实现了最高的总体准确性，达到0.93–0.95。C-1在所有维度上的表现最差（0.43/0.55/0.42/0.51），这证实了将完整的工具模式和精确的参数化放到一个规划提示中会产生过多的结构化输出负担，从而同时降低路由、排序和参数指定的效率。通过将规划分解为轻量级的代理/工具选择阶段，然后是集中的参数化阶段，C-2降低了每次调用的推理复杂性，并缓解了提示爆炸问题，这个问题削弱了C-1的表现。
- **分散式模式（D）和单一代理ReAct**实现了相似的准确性水平（0.67/0.92/0.64/0.68 vs. 0.63/1.00/0.61/0.65），这符合它们的共同架构原则：工具选择由执行代理决定，而不是由编排器规定。在这两种模式下，代理根据任务描述和工具模式独立选择工具，而在集中模式下，编排器预先指定工具和参数。关键区别在于D将这些任务分布在专业代理之间，而ReAct将这一切集中在一个通用代理的推理中一次性完成。然而，在当前的任务复杂性下，这两种模式的准确性差异微乎其微。值得注意的是，D实现了高代理选择准确性（0.92），表明即使下游工具规划不完美，编排器也能可靠地识别正确的专业代理。I型ANOVA方差分解显示，编排器模型层次（21.6%）和智能模式（18.6%）是两个最大的准确性方差来源。
- **令牌使用**：图5（b）显示，与C-1相比，C-2将编排器令牌使用减少了33%（8,339 vs. 12,476），而专业代理的使用量保持相当（2,480 vs. 2,801）。这证实了两阶段规划通过将参数细节推迟到第二阶段，生成了更紧凑的编排器提示，因为第二阶段操作的模式子集较小。分散式模式进一步将编排器令牌减少到6,118（比C-1低51%），但专业代理的令牌增加到6,054，比C-1增加了116%，因为代理必须独立地推理工具选择和参数化。总令牌使用量遵循C-1（15,277）> D（12,172）> C-2（10,819）> ReAct（9,593）。ReAct实现了最低的总使用量，因为它完全消除了编排器规划；其单一代理成本（9,593）反映了纯粹的代理侧讨论，没有跨组件通信的开销。
- **运行时间**：图5（c）显示，ReAct实现了最低的总运行时间（12.6秒），显著优于所有多代理模式。在多代理模式中，C-1和C-2的总运行时间相当（33.7秒 vs. 36.6秒）：C-2由于额外的推理阶段而花费更多的规划时间（17.0秒 vs. 13.2秒），但执行速度略快（19.6秒 vs. 20.5秒）。去中心化模式的规划时间最短（8.2秒），因为协调器只生成高级任务描述，但执行开销最高（29.1秒），导致总运行时间最长（37.3秒）。这证实了去中心化将复杂性从前期的规划转移到了下游的执行阶段，在这里代理级别的讨论成为了瓶颈。ReAct通过将所有推理放在一个代理调用中，完全避免了这种开销，而无需代理间的协调。• 成本：图5（d）显示ReAct和D的总推理成本最低（分别为0.0085美元和0.0132美元），其次是C-2（0.0140美元）和C-1（0.0167美元）。C-2相对于C-1降低了16%的总成本，主要通过减少协调器令牌的使用。虽然D的协调器成本最低（0.0084美元，比C-1低44%），但专家的成本相对于集中式模式增加了两倍，部分抵消了节省的成本。ReAct完全消除了协调器/专家的分工，实现了与仅使用协调器的D相当的成本，同时在一个推理过程中完成了所有推理。下载：下载高分辨率图片（435KB）下载：下载全尺寸图片图5. 智能模式对基准性能的影响。(a) 在集中式单阶段（C-1）、集中式双阶段（C-2）和去中心化（D）以及单代理ReAct模式下，不同工具选择、代理选择、计划质量和参数提取的准确性比较。(b) 协调器和专家代理之间的令牌消耗分配。(c) 运行时间分解为规划和执行。(d) 协调器和专家的推理成本分解。数值是基于基准测试套件的平均值。这些结果清晰地展示了不同智能模式之间的准确性-效率权衡，同时也阐明了哪些架构选择对性能有显著影响。C-2在所有评估维度上提供了最高的准确性，但令牌和运行时间成本适中。相比之下，ReAct提供了最有利的效率概况，具有最低的运行时间、最低的总令牌数和最低的成本，同时实现的准确性与D相当。从架构的角度来看，这四种智能模式也可以被解释为一个逐步的消融研究，其中ReAct代表了完全消除代理配置的情况。增加协调器路由和代理专业化（从ReAct到D）只带来了适度的改进（4%），这表明当代理仍然对工具选择具有完全自主权时，劳动分工本身带来的好处是有限的。从D到C-1的转变进一步表明，集中式工具分配会导致显著的准确性下降（工具准确性下降0.24%，计划准确性下降0.22%），因为单阶段规划迫使协调器在一个提示中同时处理工具模式、排序和参数化，从而大大降低了性能。从C-1到C-2的最大改进在于，两阶段分解将轻量级路由与专注的参数化分开，从而在工具、计划和参数准确性上获得了显著的提升（0.50/0.49/0.42）。这表明分阶段规划是框架中最关键的架构决策。II型方差分析显示，在控制了模型容量后，智能模式解释了29.2%的工具准确性方差（部分η2 = 0.292，F = 745.4，p < 0.001），并且模式×模型的交互作用显著（η2 = 0.241，p < 0.001），表明两阶段规划对于中等范围的模型最为有利。总体而言，这些发现表明，在正确性至关重要的情况下，C-2仍然是推荐的模式。然而，ReAct的强大性能表明，对于简单的任务流程，单代理架构可能提供了一个更实用的操作点，而多代理的开销主要适用于复杂的多领域工作流程，在这些流程中，C-2的结构化分解提供了可衡量的准确性优势。

3.2.2. 模型配置对基准性能的影响
图6展示了协调器和专家级别的模型能力如何影响整个系统的性能。子图（a）和（b）说明了提升每个角色的边际效果；子图（c）将完整的6×6配对空间映射到一个综合准确性热图中，并在图A2中提供了详细的每个指标和每个模式的细分；子图（d）量化了专家代理偏离协调器计划时的准确性变化。
• 协调器能力是主要的性能驱动因素。如图6（a）所示，整体性能对协调器级别的敏感度远高于专家级别。相比之下，图6（b）表明，在集中式模式下（C-1和C-2），提升专家级别只带来了适度的改进。图6（c）中的热图进一步证实了这一模式：准确性沿着协调器轴呈现出强烈的水平梯度，但在专家级别之间的垂直变化有限。在去中心化模式下，准确性在专家级别之间大约变化了25%（图6（b））。因为去中心化智能将工具选择分配给代理，所以专家的能力直接影响执行质量。
• 强大的协调器可以弥补弱专家的不足，但反之则不然。同样，结果表明，强大的协调器可以在一定程度上补偿较弱的专家。例如，GPT-4o-mini与最小的专家（S，1.7B）配对时，准确率达到了92%，与同质的GPT-4o-mini配对相当（93%）。相比之下，强大的专家无法挽救弱的协调器：例如，S级别的协调器与GPT-5.2专家配对时，准确率仅为34%。这些发现表明，高级计划质量仍然是主要的性能瓶颈；一旦初始计划制定完成，即使是能力很强的专家也难以恢复。

3.2.1 单代理性能强烈依赖于模型能力。第3.2.1节显示，ReAct基线的整体准确率与去中心化智能相当。然而，图6（a）揭示这种等同性在很大程度上依赖于模型。对于本地模型（S–XL），去中心化智能的表现优于ReAct，准确率提高了15–30%，这可能是因为将工具选择分配给专注的专家可以减少每个代理的推理复杂性。但在API级别，ReAct匹配或超过了去中心化的性能，表明足够强大的模型可以在单代理框架内有效处理集成规划和执行。

6. 协调器和专家模型级别（S到XL）对综合准确性的影响，显示协调器能力是主要的性能驱动因素。
(a) 按智能模式分类的协调器模型级别与综合准确性的关系。
(b) 按智能模式分类的专家代理模型级别与综合准确性的关系。
(c) 所有36种协调器-专家配对的综合准确性热图。
(d) 专家代理偏离协调器计划时的准确性变化。

为了更好地理解计划的工具使用与实际执行的工具使用之间的差异，我们使用带有随机截距的线性混合效应模型分析了集中式模式的性能（54个集群）。效应大小用Cohen的d值表示，并附带95%的自举置信区间。在72.8%的情况下，专家代理遵循了协调器的计划。其余923次运行（27.2%）涉及计划偏离：工具移除最常见（352次，10.4%），其次是混合修改（267次，7.9%），参数修改（221次，6.5%）和工具添加（83次，2.4%）。子图（d）说明了不同类型的偏离如何影响性能，混合效应建模的结果总结在表3中。
表3. 由于协调器指令和专家执行之间的计划偏差导致的准确性下降，按偏差类型细分。
偏差类型样本数量平均准确率 β SE p Cohen's d 95% CI
遵循计划（参考） 2,472 80.6% // +0.05 0.04 0.187 [-0.22, +0.18]
添加工具 838 80.3% +0.05 0.04 0.02 0 [-0.22, +0.18]
移除工具 352 26.1% -0.52 4 0.020 <0.001 [-1.54, -1.67]
混合 267 24.2% -0.55 0.022 <0.001 [-1.59, -1.74]
修改参数 221 67.4% -0.12 1 0.025 <0.001 [-0.51, -0.21]
所有偏离 923 40.3% -0.38 9 0.014 <0.001 [-1.09, -1.19]

计划偏差对准确性产生了较大的负面影响，偏离运行的平均准确率为40.3%，而遵循计划的运行准确率为80.6%。然而，影响的严重程度因偏差类型而异。工具移除和混合修改导致了最大的性能下降（分别为26.1%和24.2%；两者|d| > 1.5），而参数修改保持了相对较高的准确性（67.4%，d = -0.36），工具添加没有显著影响（80.3%，p = 0.19）。这里，Cohen's d量化了组间的标准化差异；|d| > 0.8表示较大影响，0.5表示中等影响，0.2表示较小影响[68]。

偏离带来的性能惩罚也随着模型级别的不同而变化。在S级别，修改导致准确率降低了22.9%；在XL级别，这种惩罚缩小到4.8%；而在GPT-5.2级别，修改甚至可以提高准确率14.3%。尽管所有专家级别的偏离率相似（23–38%），但偏离的类型随着能力的变化而系统性地变化。在偏离的运行中，最小的专家最常调整参数（37.7%），很少移除工具（28.8%），而API级别的专家则更倾向于移除工具（GPT-4o-mini为75.6%，GPT-5.2为51.4%），很少修改参数（9.2%和15.3%）。这种模式表明能力决定了偏差的类型：较小的模型倾向于调整给定的值，而较大的模型更愿意根据自己的推理覆盖协调器的工具选择。

3.2.3 任务复杂性对基准性能的影响
图7总结了任务复杂性对四个复杂性级别（SA–ST, SA–MT, MA–ST, MA–MT）下基准性能的影响。面板（a）使用小提琴图展示了整体准确率的分布，而面板（b）按复杂性类别分解了步骤级别的失败类型。
• 两阶段集中式协调在复杂性增长的情况下保持了稳健性。图7（a）显示，由于结构限制，单阶段集中式模式（C-1）在所有复杂性级别上的准确率都低于48%。相比之下，去中心化（D）和ReAct模式对任务复杂性的增加更加敏感。C-1、D和ReAct显示出明显的双峰分布，表明它们强烈依赖于协调器的能力：这些模式在与更强规划器配对时表现良好，但在较弱配置下显著下降。相比之下，两阶段集中式模式（C-2）在所有复杂性级别上都保持了稳定的高准确率，对于SA–ST到MA–ST的任务准确率达到了92.2%–95.6%，对于最具挑战性的MA–MT任务准确率为83.6%。
• 推理失败是性能下降的主要来源。在所有实验中，68.9%的运行成功，而其余31.1%出现了推理阶段的失败。成功推理的运行平均准确率为94.1%，而推理失败运行的准确率仅为16.6%。在这些失败中，工具不匹配是步骤级别错误的主要原因，特别是在多代理复杂性下。如图7（b）所示，工具不匹配在SA–ST任务中占62%，在MA–MT任务中上升到80%。代理不匹配从SA–ST的21%下降到MA–MT的8%，部分原因是多代理配置包括更多的代理池，从而在计算代理选择准确性时增加了分母。级联失败约占错误的7%，主要由上游步骤的错误引起。应用之前的重试策略后，所有JSON解析错误都得到了解决；然而，整体计划准确率仅提高了7.4%。这种有限的恢复表明，性能下降主要是由上游推理的限制驱动的，例如模型容量不足或协调器结构选择不当。这也指出了未来工作的一个重要局限性和方向，如第4节所讨论的。

4. 讨论
4.1 从代理AI系统基准测试中获得的经验教训
4.1.1 第一个教训：架构设计和结构化规划比模型规模更重要
我们的基准测试得出的第一个结论是，对于工具密集型的代理系统来说，架构设计和结构化规划比单独的模型扩展更为重要。当使用强大的模型（例如GPT-5.2级别）时，大多数智能模式都能实现高性能，使得架构差异不太明显。然而，在较小的模型下，这些差异变得更为明显：两阶段集中式模式即使在轻量级模型下也能保持高准确率，而单阶段集中式、去中心化和ReAct模式下降得更快。这表明，结构化的分解比简单地增加模型规模更能有效地弥补有限的模型容量。这一观察结果也与先前的研究[[73], [74], [75]]一致，这些研究表明，角色分解、标准化的工作流程和原子任务分解可以提高基于LLM的多代理系统的执行可靠性和协作质量。我们的结果进一步表明，结构化规划的好处来自于减少推理负担。在单阶段集中式模式中，协调器必须同时处理路由、排序、工具选择和参数提取，这导致了性能下降。相比之下，两阶段集中式模式将路由与详细的参数化分开，从而降低了提示的复杂性并提高了稳健性。同时，对于复杂度较低的任务，单一代理配置仍然可以高效且足够准确，这表明架构选择应该基于任务需求，而不是统一地进行扩展。更广泛地说，随着工具注册表和代理池的不断增长，可扩展的代理系统可能不仅需要分阶段的规划，还需要更加结构化的能力打包。这与Claude的Skills框架[84]是一致的，该框架中模块化的能力被打包，并且只在相关时选择性地加载，有助于减少提示爆炸（即过多不相关的提示）、限制推理范围，并提高路由可靠性。4.1.2. 第2课：协调者与专家角色的平衡至关重要我们的基准测试显示，协调者和专家代理之间的平衡对端到端性能至关重要。在许多运行中，一个强大的协调者已经生成了一个正确且结构良好的执行计划。在这种情况下，扩展专家模型并不一定能改善结果。轻量级的专家通过遵循计划表现良好，而强大的专家可能会引入不必要的开销并增加推理成本，而没有明显的准确性提升。更重要的是，我们观察到一种故障模式，即中级专家试图“重新推理”协调者的计划，但缺乏足够的智能来正确完成这一任务。这可能导致偏离预期的工作流程、错误的工具使用或破坏依赖关系，最终降低准确性。这些结果表明，代理系统的配置不应该遵循“到处使用最强的模型”这一简单规则。相反，模型配对应该被视为基于角色的分配问题：协调者处理工作流程中的关键决策（任务分解、路由、依赖管理），而专家则专注于本地化执行（参数提取和工具调用）。因此，一个实际的指导原则是：首先投资于协调工作，只有在需要时才扩展专家能力。4.1.3. 第3课：工具设计应符合代理的特性执行追踪显示，工具设计本身对成功率有显著影响。许多MCP工具最初是为人类开发者设计的，具有嵌套的架构、可选字段和隐含的工程假设。当LLM代理使用这些工具时，这些特性增加了遗漏关键信息、格式错误和参数结构无效的可能性。这造成了一个重要的设计差距：对人类友好的工具不一定对代理友好。这一差距不仅出现在建筑能源应用中：通用基准测试工具如ToolBench [76]和API-Bank [77]也独立报告称，随着架构复杂性和嵌套参数结构的增加，工具调用失败率急剧上升，证实了符合代理特性的工具设计是一个跨领域的要求。在未来的代理平台中，MCP工具不应仅仅被视为API，而应被视为认知与执行之间的通信协议。我们的经验提出了几个符合代理特性的设计原则，包括简化架构、扁平化深度嵌套的结构、将复杂工具分解为原子工具、加强类型/枚举、提供经过验证的默认值，并专门为LLM的可解释性改进工具文档。更广泛地说，这激发了工具开发的双向工作流程：我们不仅应该询问人类代理应该使用哪些工具，还应该询问代理自己希望使用哪些工具。工具故障日志和代理反馈可以指导迭代设计，朝着符合代理特性的抽象方向发展，从而实现可扩展的工具生态系统并降低错误率。4.1.4. 第4课：人机协同需要共同适应除了模型能力和架构之外，我们的基准测试还显示，代理AI的可靠性也受到用户表达任务方式的强烈影响。与传统的软件不同，代理工作流程对问题框架非常敏感：模糊的、描述不清或多目标的请求可能会导致早期规划和路由错误，这些错误会传递到下游的工具执行中。在计算资源有限和本地模型轻量级的环境中，这种效应更加明显，因为推理和恢复能力受到限制。这提出了一个重要的视角：一致性不仅仅是代理方面的问题，也是一个人与代理共同适应的过程，例如知识架构的对齐、自主性与代理能力的对齐、操作对齐以及训练、声誉启发式对齐和人类参与的对齐[69]。用户逐渐学会如何提供更清晰的目标、约束和预期输出，而代理必须学会主动请求缺失的信息并将任务结构化为可执行的步骤。因此，提高实际可用性不仅需要更好的模型，还需要更好的交互设计[70]，例如结构化的请求模板、澄清循环和逐步指导，以便人类意图能够可靠地转化为由工具驱动的工作流程。4.2. 从基于规则的流程到代理AI：动机和优势表4总结了传统基于规则的自动化与提出的代理AI工作流程之间的主要区别。在传统的基于规则的 pipelines中，用户通常需要提供已经与预定义的功能架构相匹配的结构化输入。因此，工作流程的成功很大程度上取决于正确的参数格式和手动指定的执行逻辑。相比之下，提出的代理框架可以解释自然语言请求，将它们分解为可执行的子任务，并将它们映射到适当的工具和专家代理。表4. 基于规则的自动化与代理AI在任务灵活性、输入要求、错误处理、可扩展性和人类交互方面的能力对比。因素|基于规则|代理AI|数据处理|结构化输入|模糊/非结构化|决策逻辑|预定义的规则和脚本|基于上下文的推理|适应性|限于预定义的工作流程|动态工作流程重构|透明度|有限的中间反馈|可追踪的计划、工具调用和中间输出|当用户请求是开放式或仅部分指定时，这种差异变得尤为重要。代理AI不仅依赖于固定的IF-THEN脚本，还支持基于上下文的规划，从而提高了涉及重复更新、嵌套任务和跨领域协调的复杂建筑工作流程的灵活性。本研究中的案例就是一个例子：尽管MCP比较工具仅支持成对比较，但该框架仍然能够将工作流程重构为多个顺序比较，以满足更高级的用户请求。此外，与通常仅返回最终输出的传统自动化管道相比，提出的框架可以以自然语言的形式暴露中间规划步骤、工具使用和执行结果，从而提高了面向用户的可解释性，并支持调试、监控和建立信任。总体而言，这些优势突显了代理AI作为集成建筑能源分析和操作的纯基于规则工作流程的替代方案的前景，尤其是在任务跨越多个能源系统、决策变量和性能标准时。4.3. 局限性和未来方向虽然提出的代理AI框架在物理信息模拟环境中展示了智能建筑操作的 promising 性能，但在大规模实际部署之前仍然存在几个实际挑战。4.3.1. 用于端到端部署的语义对齐在真实建筑中部署先进的代理系统通常需要三个相互连接的阶段[5]：(1) 将异构的、非结构化的、非标准化的BMS数据转换为结构化表示；(2) 为模型、控制、模拟和评估开发代理AI框架；(3) 通过BACnet等通信协议部署到运营建筑系统中。当前框架主要解决第二个阶段的问题。然而，端到端部署需要在原始建筑数据源和结构化模型输入之间实现更强的语义对齐。未来的工作将研究集成语义建模流程（例如，基于本体的数据映射和自动化的架构对齐[32],[71],[72],[73]）以支持数据摄取，以及标准化的通信接口（例如，基于BACnet的集成），以提高跨异构建筑系统的互操作性。这些组件可以作为额外的专家代理来实现，以扩展框架，实现完整的生命周期部署。4.3.2. 灵活性与可靠性之间的权衡另一个限制在于在多代理调度设计中平衡灵活性和可靠性。静态框架如MetaGPT [73]和ChatDev [74]通过预定义的固定工作流程来路由任务，提供强大的可预测性和可审计性，但适应性有限。动态路由框架如LangGraph [78]在静态定义的图结构内实现动态调度。可能的路径在设计时声明，但实际通过图的路径是在运行时通过条件路由和状态依赖的转换动态确定的。完全开放的多代理协作框架如AutoGen [79]和CrewAI [80]允许代理动态决定与哪些代理互动以及创建哪些子任务，而不需要预先定义的拓扑结构。我们的架构进一步扩展了这一点，使协调者能够在现有能力不足时动态生成新的代理和工具。未来的工作，如Reflexion [81]、Voyager [82]和EvoMAC [83]，设想代理能够从经验中学习，随时间自主优化它们的结构、提示和重试策略。然而，任何增加的动态性都会放大累积错误的风险，这些错误难以检查和验证。更大的灵活性需要相应更复杂的评估、错误处理和治理机制。为每个应用领域找到适当的平衡点仍然是一个开放的研究挑战。4.3.3. 通过代理技能嵌入领域专业知识该框架采用了MCP作为标准化接口，允许专家代理访问外部工具和服务。虽然MCP有效地提供了与BESTOpt运行时环境的结构化连接，但它并没有内在地编码关于如何在特定工程环境中应用工具的领域专业知识。代理AI生态系统中的最新发展引入了补充概念——代理技能：便携的、基于文件的领域知识、最佳实践和行为指令包，教授代理如何有效解决问题[84]。正如最近的分析所指出的，MCP提供了执行能力，而技能提供了推理指导，换句话说，缺少其中任何一个都会导致要么是缺乏方向的原始力量，要么是只有执行手段而没有方向的良好结构化指令[85]。我们当前的架构缺乏这一明确的专业知识层；专家代理完全依赖系统提示和MCP提供的工具架构来确定任务策略。未来工作的一个有前景的方向是在现有的MCP基础设施之上集成基于技能的知识层，使专家代理能够逐步加载特定领域的专业知识，例如领域感知的模型训练和校准以及控制优化，从而提高他们的工具交互的质量和可靠性，而不增加上下文窗口的开销。4.3.4. 朝向自适应和基于学习的错误恢复当前框架实现了静态的重试策略，使用错误信息作为反馈进行重新推理和重新执行，但没有明确的策略修订，导致性能恢复能力有限。未来的工作应该探索自适应恢复机制，包括通过会话记忆增强重试（agent接收之前的错误上下文）；基于过去成功执行轨迹的检索增强生成（RAG）来指导恢复；以及基于学习的检索，其中协调者根据累积的失败经验改进恢复策略。此外，跨会话整合持久性记忆将使代理能够从重复的错误模式中学习，并逐渐减少重复错误。4.3.5. 朝着标准化和系统化的基准设计尽管这项研究在多个复杂类别和模型配置中进行了大规模评估，但测试用例和真实标签仍然由领域专家手动策划。这种方法确保了可解释性和可重复性，但可能无法完全捕捉到现实世界建筑操作工作流程的多样性和开放性，其中用户请求往往是模糊的、多回合的或依赖于上下文的，并且难以系统地扩展。对于更广泛的代理AI社区来说，仍有几个未解决的问题：如何构建跨建筑领域的标准化基准测试套件；如何更高效和可靠地评估模型，例如利用预训练的LLM作为评分标准；以及哪些评估协议应该补充基于准确性的指标，如用户满意度评分、在部分可观察性下的任务完成度或在噪声输入下的鲁棒性测试。建立共享的基准测试，如计算机科学领域的努力，将加速建筑能源应用代理框架的可重复比较。4.3.6. 领域特定微调的作用另一个问题是，领域特定的微调是否能进一步改进提出的框架。在OptAgent中，LLM主要作为推理和调度引擎，而领域计算（如模拟、灵活性评估和控制）则通过MCP工具由物理信息BestOpt环境执行。因此，框架的性能主要取决于BestOpt工具的准确性以及LLM解释用户意图、生成适当计划、选择合适工具和传递有效参数的能力。从这个角度来看，微调的价值取决于LLM的角色。如果LLM直接用作领域模型，例如用于预测或语义建模，那么建筑特定的微调可能会提高任务准确性。然而，对于以调度为导向的角色，仅建筑能源数据可能提供有限的好处。更有用的监督可能来自与规划相关的数据，如参考执行计划、工具调用序列、参数示例和领域术语。然而，构建这些数据集需要大量的专家努力来策划具有代表性的工作流程和真实解决方案。未来的工作将检验这种以规划为中心的微调是否能进一步提高建筑应用的代理AI系统的可靠性和效率。5. 结论本研究提出了一个由代理AI支持的物理信息机器学习框架，它通过模型上下文协议工具调用将多代理决策层与BestOpt物理信息运行时环境集成在一起。在这个运行时环境中，该框架能够自动化执行建筑能源建模、控制配置、仿真以及建筑、供暖、通风和空调系统、分布式能源资源以及电网互动的性能评估。一个涉及20栋住宅楼的案例研究展示了该框架自主评估各种运营措施的能力，包括预冷策略、热泵改造、电动车辆采用和光伏-蓄电池安装，并量化了对能源使用、运营成本、热舒适度和电网灵活性的影响。此外，一个包含6,156次执行的大规模基准测试系统地评估了该框架在四种智能模式、36种协调器-专家模型组合（六个模型层级）以及四种工作流程复杂度类别下的性能。研究结果提供了几项定量见解：

- 集中式两阶段模式取得了最高的整体准确性（高达0.95）。相比之下，单阶段集中式模式的性能明显较差（0.42–0.55），这是因为在单一步骤中完全暴露整个模式结构导致了过重的推理负担。
- 协调器能力成为性能的主要驱动力。然而，通过适当的协调结构，即使是相对轻量的协调器（4-14B模型）也能实现超过90%的准确性。
- 协调器计划与专家执行之间的不匹配显著降低了性能，使得在遵循计划的执行中的平均准确性从80.6%下降到偏离计划的执行中的40.3%，其中移除工具对性能的影响最大（26.1%）。
- 推理阶段的失败是性能降级的首要原因，占不成功执行次数的30%以上。

除了这些实证发现外，研究还强调了更广泛的教训和剩余的挑战。结果表明，有效的智能代理AI需要协调设计代理、工具和人类交互，而不仅仅是提高模型的能力本身。同时，还需要进一步的工作来加强语义对齐、自适应错误恢复以及标准化基准测试和黄金测试案例的设计，以支持更可靠的现实世界部署。

总体而言，这项工作为将智能代理AI应用于电网交互和脱碳的建筑能源运行奠定了基于物理原理和定量基准的基础。研究结果为开发可扩展且可靠的多代理工作流程提供了实际的设计指导，以支持未来的智能建筑能源运营。

CRediT作者贡献声明：
蒋子欣：撰写 – 审稿与编辑、撰写 – 原始草稿、可视化、验证、软件、方法论、形式化分析、概念化。
徐伟丽：撰写 – 审稿与编辑、撰写 – 原始草稿、监督、方法论、概念化。
董冰：撰写 – 审稿与编辑、撰写 – 原始草稿、监督、方法论、资金获取、概念化。

热点排行