在多重不确定性下的日前市场中，针对虚拟电厂的自适应竞价策略杨伟、王文军

《Energies》：An Adaptive Bidding Strategy for Virtual Power Plants in Day-Ahead Markets Under Multiple Uncertainties Wei Yang and Wenjun Wang

【字体：大中小】 时间：2026年04月14日 来源：Energies 3.2

编辑推荐：

　　摘要：为了解决现代电力系统中多重不确定性对虚拟电厂（VPP）市场竞价所带来的挑战，本文提出了一种基于深度强化学习（DRL）的自适应竞价策略。首先，构建了一个融合了专用储能、车对网（V2G）和灵活负载的异构VPP聚合模型，该模型考虑了复杂的物理和运行约束。其次，为了解决传统DRL在

　　摘要：为了解决现代电力系统中多重不确定性对虚拟电厂（VPP）市场竞价所带来的挑战，本文提出了一种基于深度强化学习（DRL）的自适应竞价策略。首先，构建了一个融合了专用储能、车对网（V2G）和灵活负载的异构VPP聚合模型，该模型考虑了复杂的物理和运行约束。其次，为了解决传统DRL在时间套利任务中的“短视”局部最优问题，设计了一种与未来价格趋势相关的基于势能的奖励塑造机制，以引导智能体朝向长期最优策略发展。最后，在模拟的日前电力市场中进行了多维比较实验和机制分析。仿真结果表明：（1）所提出的算法具有稳健的收敛稳定性，并能有效处理市场价格和可再生能源发电的随机噪声；（2）在经济上，该策略显著优于基于规则的策略，并且在完美信息假设下仍能与确定性优化基准相媲美；（3）机制分析进一步揭示了DRL智能体突破了固定阈值的刚性逻辑，基于“价格-状态容量”（Price-SOC）状态学习了一种非线性动态博弈机制，从而实现了储能资源的充分利用。这项工作为不确定环境下的智能VPP决策提供了一个可解释的数据驱动范式。

1. 引言
为了应对全球气候变化和实现“双碳”目标，以可再生能源为基础的新电力系统的建设正在迅速推进[1]。然而，风能和太阳能等可再生能源的固有间歇性和变异性对电力系统的实时平衡和经济运行提出了前所未有的挑战[2]。作为先进的能源聚合技术，虚拟电厂（VPP）通过协调分布式储能、电动汽车（V2G）和灵活负载等各种异构资源，成为提高系统灵活性和整合可再生能源的关键解决方案[3,4,5]。VPP的可持续商业运营在很大程度上取决于其在电力市场中的盈利能力[6]。在日前能源市场中，VPP需要提前一天制定出未来24小时的竞价策略以最大化其运营收入。然而，这一决策过程非常复杂，因为VPP运营商面临着来自市场价格和可再生能源发电的双重不确定性[7]。市场价格的剧烈波动和预测误差使得传统的套利模型难以准确实施。因此，设计一种能够在高不确定性下实现自适应决策和稳健利润最大化的VPP竞价策略已成为学术界和工业界共同关注的核心问题[8]。
关于VPP市场竞价问题的现有研究大致可以分为两类。第一类是基于数学规划的传统优化方法，如随机规划和鲁棒优化。Gulotta等人[9]开发了一种基于随机规划的能源管理系统，用于在不确定性下优化虚拟电厂的市场竞价和实时运行，从而增加利润并减少能源不平衡。Wang等人[10]提出了一种多能源虚拟电厂的最优自调度策略，在整体市场框架下提供能源和备用服务，增强了对抗价格波动的能力。为了解决不确定性，Wang等人[11]提出了一种结合双范数不确定性集的分布式鲁棒优化策略，用于协调多能源VPP集群。同时，Kong等人[12]提出了一种基于改进的Benders分解框架的分布式优化模型，用于确定日前市场中VPP的最优竞价策略，有效平衡了隐私保护和竞价性能。Lu等人[13]开发了一个集成点对点（P2P）电力共享的分布式优化框架，并通过随机鲁棒建模和分布式算法解决了多个VPP合作运行中的不确定性和隐私保护问题，从而提高了经济性能并实现了公平的利益分配。尽管这些方法的理论框架相对成熟，但它们通常依赖于对不确定因素的准确概率分布假设或保守的最坏情况估计，并且需要高度准确的预测信息[14]。在具有显著不可预测噪声的真实市场中，这些基于完美信息假设的刚性策略往往脆弱，难以适应动态环境变化[15]。
第二类包括基于领域专家知识的规则或启发式策略。对于实时运行，Yu等人[16]利用李雅普诺夫优化理论在VPP内部实现了时间解耦，有效地将长期调度转换为单期在线优化，提高了计算效率。Yu等人[17]提出了一种改进的合作粒子群优化（ICPSO）算法，用于VPP的能源管理，显著提高了计算效率和调度盈利能力。在多智能体交互方面，Cao等人[18]基于纳什讨价还价理论为多个VPP建立了一个合作联盟模型，以优化利益分配。通过P2P能源交易，联盟的总成本被最小化，并根据所有参与者的贡献公平分配成本，从而增加了可再生能源收入。关于传统控制方案，Aboelhassan等人[19]评估了基于规则的能源管理系统（REMS），指出虽然它们通过固定的逻辑阈值确保了运行稳定性，但往往缺乏充分利用复杂市场价格波动所需的适应性[14,19]。
为了解决上述挑战，作为数据驱动决策方法的深度强化学习（DRL）显示出巨大潜力[20]。DRL智能体通过与环境的试错互动进行学习，无需显式和准确的数学模型，特别是在处理不确定性下的复杂序列决策问题时特别有效，这与VPP竞价场景非常契合[21,22]。最近，各种先进的DRL算法已被积极应用于优化VPP市场竞价和内部能源管理。例如，Jiang等人利用多智能体双延迟深度确定性策略梯度（MATD3）算法为日前市场中的价格制定者VPP推导出最优竞价策略[6]。为了解决可再生能源的不确定性，最近的研究将条件生成对抗网络与DRL结合，构建了鲁棒的多场景调度策略[23]。此外，为了在复杂环境中提高决策的鲁棒性，最近的研究提出了基于Soft Actor-Critic（SAC）和双深度Q网络（DDQN）的双层博弈模型用于VPP能源管理[24]，以及专注于具有不确定可再生能源发电的竞价特征提取的端到端DRL方法[25]。然而，当DRL直接应用于VPP套利问题时，一个关键挑战是智能体容易收敛到由即时奖励（例如充电期间的负利润）驱动的短视局部最优解，使得学习具有远见的长期套利策略变得困难[26]。
因此，本文提出了一种在多重不确定性下的虚拟电厂自适应日前市场竞价策略。首先，通过整合专用储能、V2G和灵活负载，开发了一个多维异构VPP聚合模型，同时明确考虑了V2G用户的出行需求等关键实际约束。其次，为了克服传统优化方法的局限性，建立了一个基于DRL的VPP竞价决策模型。为了解决DRL在套利任务中的短视行为，本文提出了一种与未来预测最高电价相关的基于势能的奖励塑造机制，提供密集的长期指导信号，鼓励智能体学习谷值充电和峰值放电的长期最优策略。最后，在日前电力市场模拟平台上进行了广泛的实验，将所提出的方法与确定性优化和基于规则的策略进行了基准测试。
本文的主要贡献总结如下：
- 提出了一种基于DRL的自适应VPP竞价框架，有效解决了市场价格和可再生能源发电的不确定性问题；
- 开发了一种由未来价格信号引导的新型基于势能的奖励塑造机制，减轻了DRL在套利任务中的短视行为，从而显著提高了所提策略的长期盈利能力；
- 通过纳入V2G出行需求和调度成本等关键现实约束，建立了一个实用的VPP聚合模型，增强了研究的适用性和工程相关性；
- 仿真结果表明，所提出的策略不仅在传统方法上表现显著优于，而且在噪声较大和现实的市场条件下仍能与确定性优化基准相媲美，突出了自适应竞价在利用不确定性方面的优势。

2. 虚拟电厂和市场环境建模
本文研究的基于DRL的VPP市场竞价系统的整体框架如图1所示。该系统主要由两个部分组成：电力市场环境和VPP智能决策智能体。电力市场环境包括传统发电单元、可再生能源资源和系统负载，它们共同决定了市场清算价格。VPP智能决策智能体通过强化学习算法感知市场及其内部状态，并动态调整聚合资源的充电和放电行为以及竞价策略，以最大化运营利润。本节介绍了所提出系统框架中关键模块的详细模型。

2.1. 日前电力市场清算机制
本研究在日前能源市场的框架内进行。在这个市场中，每个发电实体（包括传统发电单元、可再生能源电厂和VPP）提前一天提交其24小时的发电计划和竞价曲线。市场运营商的目标是最大化社会福利（或等效地最小化电力采购成本），并以统一的方式清算所有竞价。
该过程可以简化为以下步骤：
- 投标收集：收集每个小时t所有市场参与者提交的报价（Pi(t), Ci(t)），其中Pi(t)是单元i的可用电力供应量，Ci(t)是其边际竞价价格。
- 报价排序：所有报价按价格Ci(t)从低到高排序，形成供应曲线。
- 市场清算：根据该小时的系统总负载预测Di(t)，从供应曲线的最低价格开始依次选择单元，直到累计供应量与总负载相匹配。最后选择的单元的边际价格是该小时的市场清算价格（MCP），表示为λmcp(t）。所有获胜单元均按此价格结算。

2.2. VPP聚合资源模型
本研究构建的VPP聚合了三种典型的分布式能源资源（DERs），它们作为一个统一的实体参与市场竞价，聚合资源模型为VPP的可观测性和可控性奠定了基础。

2.2.1 专用电池储能系统（BESS）模型
专用电池储能系统是VPP的核心组成部分，提供快速的双向功率调节。其运行状态主要由状态容量（SOC）表征，相应的动态模型如下：
(1) SOC转移方程：离散时间模型如下：
??bess?(??)=??bess?(???1)+??bess,ch?(??)???ch???bess,dis?(??)/??dis??capbess?Δ???
(1) 中：??bess?(?? ?1)是时间t ? 1时的SOC；??bess,ch?(??)和??bess,dis?(??)分别是时间t的充电和放电功率。??ch和??dis分别代表充电和放电效率，??capbess是BESS的额定能量容量。
(2) 运行约束：BESS的运行必须满足其物理约束，包括SOC的上限和下限以及充电和放电功率的限制：
?{ { {?{ { {?
??minbess≤??bess?(??)≤??maxbess
0≤??bess,ch?(??)≤??maxbess,ch
0≤??bess,dis?(??)≤??maxbess,dis
(2)
公式中，??minbess和??maxbess分别表示允许的最小和最大SOC，通常设置为0和1。??maxbess,ch和??maxbess,dis分别表示最大充电和放电功率。

2.3. 车对网（V2G）模型
V2G技术通过聚合连接到电网的大量电动汽车形成了一个大规模的移动能源存储系统。在本研究中，聚合的V2G系统被等效地建模为一个集中式能源存储单元，同时考虑了其作为社会资源的特殊约束。
(1) 基本能源存储模型：基本的V2G模型与BESS类似。聚合的能量容量?????????????2???和功率限制??max???2???由车队规模、每辆车的平均电池容量和充电/放电设施的额定功率决定。SOC转移方程的形式与(1)相同。
(2) 行驶需求约束：与专用固定存储不同，V2G的主要目标是满足电动汽车所有者的行驶需求。为了捕捉这一实际约束，采用了以下简化的假设：在每天早晨的出行高峰准备期间（例如，06:00–08:00），禁止V2G车队提供放电服务，以确保用户后续出行的能源充足。这一硬性约束表述为：
$$
\mathbb{P}_{V2G,dis}(t) = 0, \quad \forall t \in [T_{\text{start}, T_{\text{end}]
$$
其中 $[T_{\text{start}, T_{\text{end}}]$ 表示预设的出行准备时间，本研究将其设置为 [6,8]。

**调度成本模型**：VPP对V2G资源的调度可能会加速电池老化并产生额外的管理成本；因此，需要向电动汽车所有者支付服务费用。该成本被建模为总调度能量的线性函数：
$$
\mathbb{C}_{VW2G}(t) = (\mathbb{P}_{V2G,charge}(t) + \mathbb{P}_{V2G,dis}(t)) \cdot \Delta t \cdot \mathbb{c}_{W2G}
$$
其中 $\mathbb{C}_{VW2G}(t)$ 是时间 t 时的V2G总调度成本（单位：人民币），$\mathbb{c}_{W2G}$ 是每单位调度能量的服务价格（单位：人民币/兆瓦时）。这一成本作为VPP的内部运营费用纳入后续的奖励函数中。

**灵活负载模型**：
可调负载（也称为需求响应，DR）通过在高峰时段主动减少非关键电力消耗（例如，空调系统和工业生产线）来为系统提供等效的电力供应服务。该模型的主要操作约束如下：
$$
\begin{cases}
0 \leq \mathbb{P}_{dr}(t) \leq \mathbb{P}_{dr,\text{max}} \\
\sum_{t=0}^{\text{total}} \mathbb{P}_{dr}(t) \cdot \Delta t \leq \mathbb{E}_{\text{dailydr}}
\end{cases}
$$
其中 $\mathbb{P}_{dr}(t)$ 表示时间 t 可以削减的负载功率（单位：兆瓦），其效果相当于一次放电操作；$\mathbb{P}_{dr,\text{max}}$ 表示可调负载的最大响应能力（单位：兆瓦）；$\mathbb{E}_{\text{dailydr}}$ 表示一天内可削减的最大总能量（单位：兆瓦时），这是为了防止对用户能源体验产生过度影响。

**基于深度强化学习（DRL）的自适应出价决策模型**：
为了在不确定的市场环境中实现VPP的自适应出价和最优调度，将顺序决策问题表述为马尔可夫决策过程（MDP），并使用深度强化学习方法进行求解。本节详细阐述了MDP的构建，包括观测空间、动作空间和奖励函数的设计。

**3.1. 问题描述和MDP构建**：
VPP的日前优化目标是在接下来的24小时内通过确定充放电计划和出价策略来最大化其总运营利润，同时受到物理约束和市场规则的约束。问题被构建为一个MDP，由以下元组定义：
- **S**：状态空间，包含VPP决策所需的所有信息。
- **A**：动作空间，指定VPP在每个时间步可以采取的动作集。
- **P**：状态转移概率 $P(s_{t+1} | s_t, a_t)$，受复杂市场动态的影响，对代理来说是未知的。
- **R**：奖励函数 $R(s_t, a_t)$，量化在状态 s 下采取动作 a 后获得的即时奖励。
- **γ**：折扣因子，用于平衡即时奖励和未来奖励的重要性。

由于 $P$ 是未知的，因此采用无模型的深度强化学习方法通过与环境的大量交互 $\hat{\pi}^* (a_t | s_t)$ 来学习最优策略。

**3.1.1. 观测空间设计**：
观测是系统状态 $S$ 的具体表示，是DRL代理决策的直接基础。一个设计良好的观测空间应包含与决策相关的所有信息，同时避免不必要的冗余。本研究中采用的观测向量 $\mathbf{o}_t \in \mathbb{R}^n$ 总结在表1中。表1展示了观测向量的设计。其中，价格信号强度 $\mathbb{s}_{price}(t)$ 的计算公式如下：
$$
\mathbb{s}_{price}(t) = \hat{\mathbb{f}_{forecast}(t) - \mathbb{\mu}_{forecast} \cdot \sigma_{forecast}
$$
公式中，$\hat{\mathbb{f}_{forecast}(t)$ 表示时间 t 的预测电价，$\mathbb{\mu}_{forecast}$ 和 $\sigma_{forecast}$ 分别代表24小时预测价格序列的均值和标准差。

**3.1.2. 动作空间设计**：
本研究中的动作空间表示为一个二维连续向量 $\mathbf{a}_t = [a_{pj}\mathbf{o}_w\mathbf{e}_r(t), a_{pj}\mathbf{i}_c\mathbf{e}_2(t)]$，每个元素都标准化到 [-1, 1] 区间内，以与强化学习算法的输出对齐。

- **功率调节动作**：
该动作决定了VPP的整体充放电方向和幅度。如果 $\mathbf{a}_{pj}\mathbf{o}_w\mathbf{e}_r(t) > 0$，VPP处于放电模式，相应的放电功率为 $\mathbb{P}_{dis}(t) = a_{pj}\mathbf{o}_w\mathbf{e}_r(t) \cdot \mathbb{P}_{dis,\text{max}}(t)$；如果 $\mathbf{a}_{pj}\mathbf{o}_w\mathbf{e}_r(t) < 0$，VPP处于充电模式，相应的充电功率为 $\mathbb{P}_{charge}(t) = a_{pj}\mathbf{o}_w\mathbf{e}_r(t) \cdot \mathbb{P}_{charge,\text{max}}(t)$。$\mathbb{P}_{dis,\text{max}}$ 和 $\mathbb{P}_{charge,\text{max}}$ 分别代表当前小时内VPP聚合资源可用的最大总放电和充电功率。

- **报价调整动作 $\mathbf{a}_{pj}\mathbf{i}_c\mathbf{e}_2(t)$**：
该动作通过微调预测电价来确定VPP在电力市场中的出价策略。
$$
\mathbb{\hat{\beta}_{bid}(t) = \hat{\mathbb{f}_{forecast}(t) \cdot (1 - k \cdot \mathbb{s}_{price}(t))
$$
公式中，$\mathbb{\hat{\beta}_{bid}(t)$ 表示VPP提交给市场的最终报价，$k$ 是控制报价允许波动范围的系数。

**3.2. 基于未来潜力的奖励函数设计**：
奖励函数作为指导代理学习过程的关键信号。VPP套利问题的主要挑战在于即时奖励（例如，在低价充电时的负利润）可能会误导代理，使其不愿意为了更高的长期回报而接受短期成本，从而导致短视的决策。为了解决这个问题，基于潜力导向奖励塑造（PBRS）框架开发了一个复合奖励函数，该函数结合了即时利润、未来潜力和终端惩罚成分。PBRS方法为代理提供了密集的指导信号，同时保持了原始问题的最优策略，从而显著加速了学习收敛。

本研究提出的总奖励函数 $R(t)$ 包含三个部分：
$$
\mathbb{R}(t) = \mathbb{R}_{\text{profit}}(t) + \mathbb{R}_{\text{potential}}(t) + \mathbb{R}_{\text{penalty}}(t)
$$

- **即时利润奖励 $\mathbb{R}_{\text{profit}}(t)$**：
该部分代表VPP在时间 t 的净市场交易利润，是奖励设计的基础。
$$
\mathbb{R}_{\text{profit}}(t) = (\mathbb{P}_{dispatched}(t) - \mathbb{P}_{charge}(t)) \cdot \mathbb{\mu}_{mcp}(t) - \mathbb{C}_{VW2G}(t)
$$
公式中，$\mathbb{P}_{dispatched}(t)$ 表示VPP在时间 t 的实际放电能量，$\mathbb{\mu}_{mcp}(t)$ 是市场清算价格，$\mathbb{C}_{VW2G}(t)$ 是在（4）中定义的V2G调度成本。

- **基于潜力的奖励塑造**：
为了减轻即时利润引起的短视行为，引入了一个潜力函数 $\Phi(s_t)$ 进行奖励塑造。
$$
\Phi(s_t) = \sum_{i \in \mathbb{N}_s \mathbb{S}_i(t) \cdot \mathbb{E}_{cap}_i} \cdot \max_{\mathbb{j} > t} \mathbb{\hat{\mathbb{f}_{forecast}(j)}
$$
其中 $\mathbb{E}_{ci}$ 表示第 $i$ 个储能单元的额定能量容量。

根据PBRS框架，奖励塑造定义为：
$$
\mathbb{R}_{\text{potential}}(t) = \mathbb{w}_{\text{potential}} \cdot (\gamma \cdot \Phi(s_{t+1}) - \Phi(s_t))
$$
公式中，$\mathbb{w}_{\text{potential}}$ 是奖励塑造的权重系数，$\gamma$ 是折扣因子。直观地说，如果一个动作增加了系统的未来潜力（例如，在低价时段充电），代理会获得正的奖励塑造；否则，会获得负的奖励塑造。这种机制将未来的收入信号传递到当前时间步，从而鼓励长期和有远见的决策。

- **终端惩罚 $\mathbb{R}_{\text{penalty}}(t)$**：
$$
\mathbb{R}_{\text{penalty}}(t) = - \mathbb{w}_{soc} \cdot (\bar{\SOC}_{\text{all}}(t - 1) - \mathbb{SOC}_{\text{target}}
$$
公式中，$\bar{\SOC}_{\text{all}}(t - 1)$ 是一天结束时所有储能单元的平均SOC，$\mathbb{SOC}_{\text{target}}$ 是目标SOC，$\mathbb{w}_{soc}$ 是惩罚权重。对于非终端时间步，$\mathbb{R}_{\text{penalty}}(t) = 0$。

**3.3. 模型训练算法**：
本研究采用近端策略优化（PPO）算法进行模型训练。作为一种先进的策略梯度方法，PPO在处理连续动作空间问题时表现出强大的性能。其核心优势在于引入了一个裁剪的替代目标函数，该函数限制了每次策略迭代的更新步长，有效防止了由于更新过大导致的策略崩溃，从而确保了训练的稳定性和高样本效率。这些特性使得PPO特别适合解决复杂的工程优化问题，如VPP调度。

**4. 案例研究和实验分析**：

**4.1. 实验环境和参数设置**：
为了评估所提出方法的有效性，使用Python 3.9开发了一个日前电力市场模拟平台。本节描述了关键实验参数及其配置。所有参数都根据典型的电网运行数据和相关文献进行配置，以确保模拟结果的真实性和有效性。

- **市场和VPP参数**：
电力市场的物理和经济参数以及实验中使用的VPP内部资源分别总结在表2和表3中。市场发电参数根据[6]中报告的典型日前市场设置进行配置，而BESS、V2G和需求响应的内部资源参数则基于[4,17,22]中采用的代表性值确定。

- **强化学习模型超参数**：
PPO算法和环境相关奖励函数的超参数总结在表4中。这些参数通过初步实验确定，以平衡学习效率和最终性能。

所有模拟实验都在Python 3.9环境中使用PyTorch 1.13和Stable-Baselines3 2.0库实现。硬件平台由Intel Core i7-10700 CPU和16 GB RAM组成。

**4.1.3. 基线策略设置**：
为了全面评估所提出的强化学习（DRL）方法的性能，设计了两种代表性的基线策略进行比较：
- **确定性优化**：这种策略代表了在完美信息假设下的传统优化方法。它假设接下来24小时的电价曲线可以提前完全知道。基于这些信息，构建了一个线性规划模型来最大化每日总利润，从而得到整个天的固定最优充放电计划。这种策略在完美信息假设下作为参考基准。
- **基于规则的策略**：这种策略模仿了领域专家的直观决策，代表了一种典型的启发式方法。控制规则如下硬编码：当预测电价低于预定义的充电阈值（380人民币/兆瓦时）时，VPP以全功率充电；当预测电价超过预定义的放电阈值（700人民币/兆瓦时）时，VPP以全功率放电。当价格介于两个阈值之间时，不执行任何主动的充电或放电动作。

所有策略都在相同的现实场景下进行评估，以确保公平比较。

**4.2. 模型训练和收敛性分析**：
图2展示了VPP代理在8500个训练周期内的学习过程。横轴代表训练周期数，纵轴表示每个周期的标准化总奖励。图2显示了基于深度强化学习的VPP市场策略的收敛情况。在初始训练阶段（前500个周期），代理主要通过随机动作探索环境。由于缺乏有效的充放电策略，代理经常违反操作约束或在不利的价格下放电，导致奖励值较低。随后，随着PPO算法有效利用历史经验，奖励曲线在500到1500个周期之间迅速增加。这表明所提出的基于潜力的奖励塑造机制提供了密集的指导信号，并显著加速了早期学习过程。

大约2000个周期后，代表移动平均奖励的红曲线进入了一个明确的平台期，表明训练过程已经收敛。同时，浅蓝色背景下的原始奖励值继续显示出明显的波动。这种现象并不表示缺乏收敛，而是反映了电力市场环境的固有随机性。即使在最优策略下，电价的波动和不同天可再生能源输出的变化也会导致每日利润的变动。代理在如此高噪声环境下保持稳定平均奖励的能力证明了所提出策略的强大鲁棒性。

**4.3. 不同策略的经济效益比较**：
为了验证所提出策略在不确定环境下的有效性和鲁棒性，将所提出的方法与确定性优化和基于规则的策略在具有随机干扰的现实场景下进行了比较。表5总结了每种策略在单日调度范围内的累计净利润。表5显示，在这种代表性的现实场景中，所提出的基于DRL的策略实现了最高的每日净利润，达到76,206.64人民币。相比之下，确定性优化策略和基于规则的策略分别实现了66,426.78人民币和39,150.00人民币的净利润。与基于规则的策略相比，基于DRL的策略实现了94.65%的利润提升。这种显著的提升可以归因于基于规则的策略的固有局限性，它依赖于固定的充放电阈值。因此，当电价在中间范围内波动时，它无法利用套利机会。相比之下，DRL智能体通过与环境的持续互动学习了一种更加灵活的非线性控制策略，使其能够有效捕捉到微小的价格差异并适应随机市场条件。此外，基于DRL的策略所实现的收入超过了基于完美价格预测的确定性优化策略（66,426.78元人民币），提高了大约14.7%。这一结果突显了DRL模型在协调VPP内异构资源方面的优势。在处理BESS与V2G车队之间强耦合的约束时，传统的确定性优化方法通常采用解耦技术或顺序解决程序来降低计算复杂性，这可能导致次优解。相比之下，DRL智能体学习了一种端到端的控制策略，能够实现BESS和V2G资源的全局协同调度。特别是，它有效地利用了V2G车队在早晚高峰期的放电潜力，从而实现了超出传统优化基准的额外经济效益。图3展示了在典型日常情景下不同调度策略的功率响应行为和累积经济效益的动态演变。如图3a所示，所有三种策略都遵循了在低价时段充电、高价时段放电的基本套利原则。在早晨的低价时段（00:00–06:00），每种策略都控制储能单元进行充电，以较低的成本提高充电状态。然而，在价格波动较大的时段，策略之间出现了显著差异。具体来说，基于规则的策略由于其依赖于固定的价格阈值，在决策上表现出明显的刚性。如图3中绿色虚线所示，在某些非高峰时段（例如18:00左右），尽管市场价格已经达到相对较高的水平，但由于未触发预定义的放电阈值，VPP仍然保持不活跃状态，导致错失了套利机会。相比之下，所提出的基于DRL的策略（红线）对市场环境的适应能力更强。它不是依赖于单一的预定义阈值，而是根据当前系统状态和学到的未来价格趋势的隐式表示来做出决策。在傍晚高峰期（18:00–21:00），DRL策略能够准确识别短暂的高价信号并及时进行高功率放电。其运行行为与从全局规划角度出发的确定性优化策略（蓝色虚线）非常一致。这种行为差异直接反映在图3b所示的累积经济效益中。在早晨高峰期结束之前，各种策略之间的利润差异相对较小。随着傍晚高峰期的到来，基于DRL的策略的累积利润曲线呈现出急剧上升的趋势，因为其放电动作的时机非常准确，迅速拉大了与基于规则策略的差距。最终，基于DRL的策略实现了显著高于基于规则策略的日累积净利润，并且与确定性优化策略保持了高度竞争力。这些结果表明，所提出的算法在不确定的电力市场环境中具有强大的决策性能和鲁棒性。

4.4. 策略调度机制的深入分析
为了进一步探索深度强化学习模型“黑箱”决策背后的物理逻辑和智能特性，本节从两个维度进行了深入分析：储能状态（SOC）管理和价格-动作响应机制。

4.4.1. 储能资源利用的深入分析
图4显示了在同一市场环境下，不同控制策略下储能单元全天SOC的变化情况。对比分析表明，DRL策略在资源利用方面具有显著优势。如图所示，DRL策略（红线）在充放电操作中表现出极大的调度灵活性和深度。在早期调度阶段（00:00–02:00），DRL策略迅速将SOC从初始值充至1.0（满功率状态），并保持这一状态直到第5小时，充分利用了早晨的低价时段进行储能。随后，在第6至10小时，DRL策略执行决定性的放电操作，将SOC降至0.0，从而实现了储能容量的充分利用。这一大胆的策略表明，智能体成功学习了一种在满足约束的同时最大化物理资源利用的套利模型。相比之下，基于规则的策略（绿色虚线）的SOC曲线在整个过程中波动很小，长时间保持在约0.3的水平，仅在18小时后有少量放电。这反映了固定阈值策略的保守性：由于预测价格未达到预设的充电阈值，储能单元在较长时间内保持“闲置”状态，导致资源浪费和机会成本损失。此外，DRL策略和确定性优化策略（蓝色虚线）在最终SOC值上趋于接近0，进一步验证了其对日内资源清算边界条件的有效遵守。

4.4.2. 价格信号和动作响应机制
为了揭示DRL智能体的决策逻辑，图5可视化了在不同市场清算价格（MCPs）下DRL智能体的净输出动作分布，其中每个散点的颜色代表输出幅度，红色表示放电，蓝色表示充电。

（1）非线性层次响应：动作分布显示出明显的极化模式。当电价低于400 CNY/MWh（图的左下区域）时，散点主要集中在负输出范围内（深蓝色点），表明有强烈的充电倾向。相反，当电价超过750 CNY/MWh（图的右上区域）时，散点集中在正输出峰值范围内（深红色点），表明完全放电行为。

（2）状态依赖的决策：值得注意的是，在大约420 CNY/MWh的中间价格时，可以观察到一次高功率放电的异常值（红色点）。这表明DRL策略并不遵循简单的线性价格-动作映射，而是根据当前的SOC状态和学到的未来价格走势预期来做出决策。这种处理非典型价格条件的灵活性构成了DRL策略相对于刚性规则方法的核心优势。

4.5. 统计稳健性和置信区间分析
为了进一步评估所提出方法在随机市场干扰下的可靠性，在相同的真实市场设置下使用20个不同的随机种子进行了重复评估。对于每种策略，记录了每日净利润，并以平均值、标准差和95%置信区间的形式进行了总结，如表6所示。结果表明，所提出的基于DRL的策略实现了最高的平均日净利润84,374.88元人民币，标准差为10,685.48，95%置信区间为[79,691.76, 89,058.00]。相比之下，确定性优化的平均日净利润为59,730.45元人民币，标准差较大，为30,412.47，95%置信区间为[46,401.60, 73,059.30]，表明其在随机干扰下的性能稳定性较差。基于规则的策略平均日净利润最低，为20,024.96元人民币，标准差为20,939.98，95%置信区间为[10,847.61, 29,202.31]。

这些重复评估的结果证实，所提出的基于DRL的策略不仅在预期经济回报方面表现优异，而且在不确定性环境下也保持了相对稳定的性能。

4.6. 敏感性和消融分析
4.6.1. 对基于势能的奖励权重的敏感性
为了检验所提出方法的有效性是否依赖于一个精心调整的 shaping 系数，对基于势能的奖励权重进行了敏感性分析。具体来说，在相同的训练和评估协议下测试了五个代表性值，即0.0、0.2、0.5、0.8和1.0。相应的结果总结在图6和表7中。当 shaping 权重设置为0.0、0.2和0.5时，平均日净利润分别为38,573.94元、38,443.63元和38,843.41元，表明弱或不存在的势能指导无法支持有利可图的长远套利行为。相反，当 shaping 权重增加到0.8时，平均日净利润急剧上升到84,374.88元，这是所有测试设置中最好的表现。当权重进一步增加到1.0时，平均日净利润仍然保持在79,116.51元，尽管略低于0.8时的结果。

这些结果表明，shaping 权重对最终策略性能有显著影响。更重要的是，所提出的方法并不依赖于单一的脆弱参数点。相反，它在适中的高 shaping 范围内表现强劲，选定的0.8值在有效长期指导和训练稳定性之间提供了最佳平衡。

4.6.2. 奖励塑造机制的消融研究
为了进一步验证所提出的基于势能的奖励塑造（PBRS）机制的实际贡献，通过比较三种PPO变体在相同的训练和重复随机评估协议下进行了消融研究：带有所提出的PBRS的PPO、带有更简单启发式塑造基线的PPO以及没有势能塑造的普通PPO。在启发式塑造基线中，所提出的塑造项中使用的未来最高价格锚点被当前预测价格替代，从而提供了一个更简单但视野更短的指导信号。相应的结果总结在表8中。如表8所示，带有所提出的PBRS的PPO实现了最高的平均日净利润84,374.88元人民币，95%置信区间为[79,691.76, 89,058.00]。相比之下，带有启发式当前价格塑造的PPO仅实现了38,443.63元人民币，95%置信区间为[37,045.75, 39,841.52]，而没有势能塑造的PPO实现了38,573.94元人民币，95%置信区间为[37,103.86, 40,044.02]。值得注意的是，启发式塑造基线并没有比无塑造基线带来有意义的改进，表明仅仅添加一个临时的塑造项不足以产生强大的长远套利行为。

这些结果表明，所提出的PBRS机制不仅仅是一个辅助修改，而是基于DRL策略强大性能的关键因素。通过将未来价格潜力明确传递到当前决策步骤，所提出的设计有效缓解了短视行为，并实现了超过启发式塑造基线和无塑造基线100%以上的利润提升。

4.7. 额外的DRL基线和实际部署讨论
为了提供超出PPO的额外参考，还在相同环境和重复随机评估协议下测试了一个代表性的非策略DRL基线，即Soft Actor-Critic（SAC）。考虑到SAC在这种环境中的更高计算成本，SAC被训练了50,000个时间步长作为一个轻量级基线，而PPO使用了默认的200,000时间步长设置。相应的比较总结在表9中。在测试配置下，带有所提出的PBRS的PPO实现了平均日净利润84,374.88元人民币，而基于SAC的策略实现了53,275.18元人民币，95%置信区间为[45,187.40, 61,362.96]。这些结果表明，PPO仍然是当前日前VPP竞价问题的一个有竞争力和有效的选择。应当注意的是，这种比较旨在作为一个代表性的算法基准，而不是对所有DRL架构的全面调查。

从实际部署的角度来看，区分离线训练和在线决策非常重要。所提出的DRL框架的计算负担主要集中在离线训练阶段，模型从历史或模拟的市场互动中学习。相比之下，一旦策略训练完成，线上部署只需要对神经网络进行一次前向传递即可生成出价动作。相应的运行时统计信息总结在表10中。表10显示，基于PPO的模型的总训练时间为127.24秒，而单次前向传递的平均推理时间仅为0.339毫秒。这一结果表明，尽管深度强化学习（DRL）模型的训练需要离线计算，但训练好的策略可以高效地用于实际的日前出价支持。因此，所提出的框架在可接受定期离线重新训练的场景中，对于现实世界的虚拟电力市场（VPP）运营来说是计算上可行的。

4.8. 讨论与局限性
第4.2节、第4.3节、第4.4节、第4.5节、第4.6节和第4.7节中呈现的实验结果共同证明了所提出的基于DRL的出价框架在VPP运营中的实际可行性。如表10所示，基于PPO的模型可以在大约两分钟内完成离线训练，并且每次前向传递的推理延迟仅为0.339毫秒。这种计算性能使得该框架非常适合现实世界的日前市场运营，在这些运营中，出价决策是按小时或每天进行的，并且定期使用更新的市场数据进行离线重新训练是完全可行的。此外，敏感性分析（第4.6.1节）证实，所提出的方法在各种形状权重下都能表现出良好的鲁棒性，从而减少了实际部署中需要进行详尽的超参数调整的需求。

应当注意的是，当前研究采用了几种有意的建模简化，以保持对所提出的奖励 shaping 机制的明确实验关注。具体来说，VPP被建模为价格接受者，市场清算过程没有包含传输线容量或电压限制等详细的网络约束。这些简化在基于DRL的能源管理文献中是常见的，用于将算法贡献与环境复杂性区分开来。虽然它们可能无法完全捕捉到现实市场中遇到的所有运营因素，但核心的算法发现——特别是基于潜力的奖励 shaping 在克服短视行为方面的有效性——预计在更详细的市场模型下仍然有效。

在当前工作的基础上，未来的研究将从两个方向扩展所提出的框架：（1）引入多智能体DRL公式来捕捉多个价格制定者参与者之间的战略互动；（2）整合交流网络约束以确保调度解决方案在物理上是可行的。这些扩展代表了缩小模拟环境与全规模实际部署之间差距的自然下一步。

5. 结论
本文针对不确定的日前电力市场中VPP的出价决策问题，提出了一种结合基于潜力函数的奖励 shaping 的自适应深度强化学习策略。通过多维模拟实验和机制分析，得出了以下结论：
（1）算法的收敛性和有效性：通过引入基于潜力函数的奖励 shaping 机制，有效缓解了奖励稀疏问题和强化学习在长周期决策中的短视行为。训练过程分析表明，模型在大约2000个剧集（大约50,000个交互步骤）后收敛到稳定的性能区域，显示出良好的学习效率和稳定性。
（2）经济性能和鲁棒性：在具有随机噪声的现实市场场景中，所提出的DRL策略显示出显著的经济优势。其单日累计净利润不仅大幅超过了传统基于规则的策略，而且在关键峰值套利期间表现出与确定性优化高度一致的决策行为，表明在不确定的市场条件下具有很强的鲁棒性。
（3）决策机制的可解释性：通过对调度行为的深入分析，本文揭示了DRL智能体相对于基于规则策略的优越性背后的内部决策逻辑。SOC轨迹分析显示，DRL策略实现了从0%到100%的能量存储容量的充分利用，避免了基于规则策略中由于保守阈值导致的资源闲置。价格-动作分布分析进一步证实，智能体学习了一种非线性的、状态依赖的策略，该策略能够根据其充电状态在非典型价格条件下灵活调整充放电行为，反映了超越刚性基于规则控制的先进决策能力。

热点排行