分布式层次化多智能体控制（Distributed Hierarchical MPC）用于具有混合通信拓扑的车辆编队的共识与稳定性控制作者：庄 Li（Zhuang Li），方振奇（Zhenqi Fang），方瑶（Yao Fang）和罗绍轩（Shaoxuan Luo）

《Vehicles》：Distributed Hierarchical MPC for Consensus and Stability of Vehicle Platoons with Mixed Communication Topologies Zhuang Li, Zhenqi Fang, Yao Fang and Shaoxuan Luo

【字体：大中小】 时间：2026年04月23日 来源：Vehicles 2.2

编辑推荐：

　　摘要：本文提出了一个分布式分层模型预测控制（MPC）框架，旨在确保非线性车辆编队的动态共识和稳定性，同时应对混合通信拓扑结构和严格约束带来的挑战。通过使用有向图对混合通信拓扑结构进行建模，编队的动态共识目标由车辆主机与其邻居之间的距离来定义，而单个车辆的稳定性标准则表现为其位置和

　　摘要：本文提出了一个分布式分层模型预测控制（MPC）框架，旨在确保非线性车辆编队的动态共识和稳定性，同时应对混合通信拓扑结构和严格约束带来的挑战。通过使用有向图对混合通信拓扑结构进行建模，编队的动态共识目标由车辆主机与其邻居之间的距离来定义，而单个车辆的稳定性标准则表现为其位置和速度偏差的正定函数。然后，在分层模型预测控制框架中巧妙地设计了一个收缩性约束，将这两个目标联系起来：下层优化稳定性目标，上层优化动态共识目标。研究表明，确保车辆编队稳定性和串稳定性的条件仅依赖于主机车辆的偏差，从而实现了非线性车辆编队的动态共识和串稳定性。通过几个代表性场景验证了所提出策略的性能。

1. 引言
随着交通拥堵和事故的增加，道路容量和安全性面临重大挑战。近年来，对车辆编队的协调控制（如涉及自动驾驶车辆的控制和编队控制）引起了广泛关注。这种协调控制的目标是在严格遵守最小安全车头时距的前提下，同步编队成员的速度[1,2,3]。这样的框架在优化交通流量、提高道路安全性和减少车辆事故风险方面展现出巨大潜力[4,5]。实际上，编队系统内部存在对车辆速度、加速度和编队控制的限制。每辆车都保持通信并交换状态信息以实现协调的编队控制。因此，分布式模型预测控制（DMPC）最近被广泛采用，以明确解决这些限制和通信挑战，例如在多智能体系统的共识控制和群集问题中[6,7,8,9,10]。为了描述网络内部不同程度的合作与竞争，引入了一种基于智能体之间距离的新权重函数。这种设计即使在通信异步的情况下，也能促进具有合作和竞争交互的多智能体系统中的共识跟踪控制[11]。此外，还提出了多种MPC控制器来实现车辆编队的合作编队行为[12,13,14,15]。例如，一种利用V2V通信拓扑的分布式MPC策略被提出以实现串稳定性[12]；一种L2范数控制合成方法被设计用于串稳定性[13]；一种分布式非线性模型预测控制（DNMPC）策略被制定出来，以协调编队跟随控制与单个车辆动态[14]；一种分布式经济MPC（EMPC）算法与传统以跟踪为中心的方法相比，显示出高达6.84%的节能效果[15]。然而，大多数现有的编队控制方法依赖于刚性的或单模式的通信拓扑，并保持严格的编队形式。在这些设置中，跟随者通常直接从编队领导者那里接收状态信息。在大型编队中，这种对领导者的依赖成为一个问题，因为并非所有跟随者都能可靠地获取必要的信息。此外，现实部署还面临额外的复杂性，如通信延迟、车辆异构性和动态交互模式。最近的研究探索了包括针对复杂拓扑的分类引导图表示[16]、用于延迟补偿的鲁棒无偏移策略[17]以及用于异构系统的个性化联邦学习框架[18,19]等先进解决方案。虽然本文主要关注在具有固定参数的混合切换拓扑下建立理论稳定性保证，但我们专门用第6节全面讨论了如何通过整合这些最新概念（包括通过动态学习进行自适应参数调整[20]）来扩展我们提出的框架。

随着协调车辆控制的进步，研究越来越多地关注车辆编队内的动态过程[21,22]。然而，大多数现有工作忽略了动态共识与编队稳定性之间的协调。通常，通过采用跨车辆的耦合成本函数并对这些函数施加额外假设来确保编队稳定性。很少有研究涉及串稳定性、大规模编队可扩展性或线性编队中动态共识与稳定性之间的协调。相反，已经为连接和自动车辆编队开发了分布式共识协议[23,24,25,26,27]。提出了一个基于三阶系统的车辆预测间距[23]，并设计了一种用于编队的鲁棒策略[24]。采用分布式直接自适应控制律来控制车辆的纵向运动[25]。为了减轻编队故障，为编队操作制定了有限时间故障估计律和鲁棒的DSMC架构[26,27]。大多数努力集中在固定的车辆耦合模式上，这往往导致串稳定性较差，并忽略了编队过程中的共识-稳定性协调。此外，实现稳定性通常依赖于通过泰勒展开或中间变量对非线性车辆模型进行线性化，这引入了限制。

保持安全的车辆间距至关重要。这需要在进行行驶时同时优化动态共识和确保编队稳定性，并考虑动态共识性能。因此，编队控制涉及双重目标：稳定性（局部车辆级目标）和动态共识（全局编队级目标）。这两个目标之间存在合作关系。一些研究同时考虑了这两个方面，例如使用加权成本函数来调和它们[28,29,30,31,32]，其中权重是通过广泛的离线实验确定的。然而，这往往导致非凸或非正定的动态共识成本函数，涉及车辆共识误差。这些限制使得稳定性分析复杂化，并限制了编队控制的适用性。本文为受到状态或控制约束以及混合通信拓扑影响的车辆编队设计了一个分布式分层MPC框架。我们使用跟踪稳定性目标的最优值函数来定义动态共识优化问题的稳定性约束。在标准MPC三元组框架[33]的基础上，我们建立了系统关于平衡点的渐近稳定性，同时保证动态共识。使用递归视界原理和稳定性约束推导出动态共识目标和编队串稳定性的递归可行性。主要贡献如下：（1）提出的双层MPC策略在混合通信拓扑下协调稳定性和动态共识目标，保证了整个编队系统的稳定性。（2）分离动态共识和稳定性目标消除了成本函数中的权重选择和影响平衡的需要，突出了通信拓扑在编队稳定性和共识中的关键作用。使用七辆车场景的数值模拟验证了该策略的有效性。

本文的其余部分结构如下：第2节概述了问题 formulation 并提供了必要的预备知识。第3节提出了用于解决共识和跟踪稳定性优化问题的分布式分层MPC策略。第4节详细介绍了递归可行性和串稳定性分析。第5节提供了仿真结果。值得注意的是，第6节深入讨论了如何将我们当前的工作与最近在鲁棒控制、联邦学习和图表示方面的进展联系起来，特别关注了最近文献中强调的五个关键维度。最后，第7节总结了本文。

符号说明：我们分别用Z表示实数，用I表示非负整数。给定一个向量x和一个正半定矩阵P，定义P加权欧几里得范数为。

2. 问题表述和预备知识
考虑一个由n辆互连车辆组成的系统，其中表示领头车，表示尾车。每辆车可以接收到编队中传输给它的信息。在初始时刻，编队跟踪期望的位置和速度轨迹，其中参考信号与所有跟随者 i = 1, ?, n 共享。在其他时间，领头车将跟踪期望的轨迹，其他车辆将跟踪它直接前的车辆 i = 2, ?, n，并与其保持期望的安全间距。假设所有车辆的通信网络性能良好，没有网络延迟或数据包丢失现象，车辆在平坦的道路上行驶，并且模型没有干扰。让和分别表示车辆 i = 1, ?, n 的位置和速度。车辆 pi 的位置和速度的预期偏差分别定义为和。然后，车辆 pi 的纵向偏差模型由 [28] 描述：
(1)
其中，是采样时间间隔，mi 是车辆质量，是空气动力阻力系数，g 是重力加速度，是滚动阻力系数，是轮胎半径，是车辆的机械效率。车辆状态变量表示为，是表示期望驾驶/制动扭矩的控制输入。车辆的状态和控制变量的约束由下式给出：
(2)
其中 umin,i < 0 和 umax,i > 0 是状态变量的上下界，xmin,i < 0 和 xmax,i > 0 是状态变量的上下界。为了简化，(1) 被写为：
(3)
其中 fi(xi,ui) ∈ R2×1 定义为：
(4)
定义1 [34]。给定在时刻 k = 0 时参考速度 v 的阶跃变化，如果每辆车的状态误差渐近收敛到零，则认为编队是稳定的。
定义2 [34]。在初始时刻，预期速度发生阶跃变化，每辆车的状态向量渐近收敛到零。对于 i = 2,?, n，存在一个 ρi ∈ (0, 1)，并且闭环位置误差满足：
(5)
根据定义2， predecessors–followers 串稳定性表征了抑制位置误差在编队中传播时的放大能力。

注1：为了性能评估，建议的分离误差范围为 ±0.5 米，这反映了紧密编队与保持系统稳定性和安全性之间的平衡。
车辆编队的混合通信拓扑被描述为一个有向图 G = {H,C,A}。这里，H = {1, …, n} 表示车辆集合，C 表示通信链接集合，A = [aij] ∈ 是捕获编队成员之间信息交换模式的邻接矩阵。对于任何 (i,j) ∈ C，j ≠ i，且 aij = 1，表示从 i 到节点 j 的有向边，即车辆 j 接收到车辆 i 发送的信息。相反，车辆 i 和 j 之间没有通信。让 Θi 和 Ωi 分别表示节点 i 的外出邻居和入邻居集合。具体来说，Θi= {j ∈ H?{i}∣aij = 1} 表示 ii 传输信息的节点集合。相反，对偶集合 Ωi= {j ∈ H?{i}∣aji = 1} 包含 i 接收数据的节点。如果存在至少一个根节点 ii 使得有向路径将 ii 连接到 H 中的每个其他节点 j，则称有向图包含一个有向生成树。
混合通信拓扑意味着车辆之间的通信是任意的，即它包含单向通信和双向通信模式。

本文提出了一个适用于在混合通信拓扑下运行的车辆编队的分布式分层控制框架，同时明确考虑了状态和控制约束。该策略有效地协调了动态共识性能与编队稳定性之间的权衡，同时保证了稳定性和共识性能以及串稳定性。此外，控制器满足所有系统约束。

3. 分布式控制策略
3.1. 控制策略
在离散时间点获取状态测量值，预测范围长度为 N ∈ I≥0。通过在时间步长 k 的预测范围 N 上解决优化问题来获得最优控制序列，表示为。序列表示时间 k 的假设控制轨迹，该轨迹由车辆 pi 在步骤 k ? 1 预先计算，用于时间 k 的车辆 pj, j ∈ Θi。为了简化，设 = ，l ∈ {0, ?, N} 和 xi,1 = ep,i 是状态变量 xi 的第一个元素，即位置偏差。
考虑系统 (3) 的一个可行的预测控制序列 ui(k) = {ui(0|k),ui(1|k), ?, ui(N ? 1|k)} 及其预测状态序列 xi(k) = {xi(1|k), xi(2|k), ?, xi(N|k)}。为了最小化预测范围内的动态共识性能，其定义如下：
(6)
(7)
其中，表示在时间 k ? 1 计算的车辆 pj 的预测状态轨迹。根据这些信息，当前步骤k时每辆车pi的有限视界最优动态共识目标定义为（8）（9）（10）（11）（12）（13），其中表示问题1的最优解。xi(0|k) = xi(k)是初始条件。xi(N|k) ∈ Xi,T是终端约束。约束（12）是确保建立方程（5）的充分条件，可以参考[34]。终端约束集为Xi,T ∈ Xi，并且有关函数。收缩稳定性约束（13）是为了确保稳定性而施加的。需要注意的是，收缩约束（13）主要作为分布式优化问题的递归可行性保证，特别是在动态速度转换期间。与直接限制车辆间距离的硬安全约束不同，方程（13）确保在每个时间步骤都存在满足稳定性和一致性要求的可行解。这种可解性对于维持连续控制权限至关重要，这间接支持了安全性，并允许目标函数在不存在不可行性导致故障的情况下优化出紧密、高效的间距。

为了评估车辆队的跟踪性能，描述单个车辆稳定性的成本函数被定义为（14），其中（15）是连续且有界的，Xi和Ui是凸的。然后，可以按照以下步骤解决优化问题：问题2：（16），其中变量表示在当前时间步骤k从问题2获得的最优解。

现在我们定义函数?i为（17），其中系数λi ∈ [0,1)，以及（18）。注释2：对于问题1，最优解代表在时间步骤k时问题2的可行轨迹，满足所有施加的约束；类似地，序列满足约束方程（13）；它是问题1的可行解，但通常不是时间k时的最优解。注释3：本文应用分层控制策略来协调车队动态共识和稳定性之间的权衡关系。然后，一些研究采用加权函数方法来处理它，表示为（19），其中τ是通过大量离线实验设定的加权系数。然后，建立带有约束方程（9）-（12）的加权函数方法优化问题。

假设问题1在时间k时有可行解，滚动时域策略规定控制输入应实现为（20），其中是对应于闭环系统的第一个元素。（21）。图1展示了本研究中提出的整体控制架构。图1. 控制框图。（箭头表示控制序列和状态信息的传输方向。）3.2. 算法1. 初始化（k = 0）：(1)在k = 0时，车辆i = 1, …, n接收到参考速度，让?i(xi(0),λi)是一个足够大的值。领头车在不考虑约束（12）的情况下解决问题1，将最优状态传输给所有跟随者，然后对自己应用最优控制输入序列。（2)每辆车i = 2, …, n从领头车接收状态。通过用（22）替换（12）来解决问题1，车辆pi将假设的序列传输给车辆j，并对自己应用最优控制序列，其中参数（ζi,γi） ∈ (0, 1)。2. 迭代（k = 1, …）：(1)车辆i = 2, …, n从车辆j接收假设的状态信息。(2)解决问题1，其中为领头车添加了额外的约束方程（23）：(23)对于i = 2, …, n ? 1 (24)对于i = n，不等式（24）的右侧被替换为。 (3)车辆i = 1, …, n从车辆j接收状态信息，并解决问题1以获得最优控制输入，然后将pi的假设状态序列传输给车辆j，并对自己应用最优控制输入。让k = k + 1回到步骤1)。注释4：该算法旨在解决分层优化问题。解决问题2可以得到最优控制律，可以将其代入Ji(xi(k),ui(k))来更新?i(xi(k),λi)，除了初始化外，然后迭代问题1中的约束方程（13）。参数ζi,γi,εi,k的值遵循[34]中的规定，（22）在初始化时定义。车辆pi的位置误差满足，其中参数α2 = (1 + ξ2)·γ2, αi((1 + ξi)/(1 ? ξi?1))·(γi/γi?1)，i = 3, …, n。参数εi,k = εk确保（23）和（24）满足方程（12），并建立车辆队的前后车辆串稳定性。假定的控制输入轨迹类似于滚动时域控制策略[20]。在时间k，每辆车pi的假定控制轨迹由生成，j ∈ [1,N)，以及Ki是一个反馈矩阵，可以通过解决LQR问题获得。然后，假定状态轨迹可以表示为（25）。

4. 稳定性和串稳定性分析
假设1：对于给定区域Xi,T，我们假设存在局部反馈控制律ui = κi(xi)，满足对所有xi ∈ Xi,T都有κi(xi)Ui。此外，这个控制律确保终端成本Ei满足下降条件Ei(fi(xi,κi(xi))? Ei(xi) ≤ ?Li (xi, κi(xi))，且Li(xi,ui)是正定的。
引理1 [34]：只要对于任意的pi, i = 2, ?, n满足后续参数约束（26），闭环位置误差满足方程（12），其中（αi,εi?1,k,εi,k） ∈ (0, 1）。
定义3：如果对于任何时间步骤，闭环系统都存在有效的预测序列xi(k)，则初始状态xi(0)被称为可行的（即xi(0) ∈ Xi）。所有这样的状态集合构成了可行的初始集合，表示为Xi,N，它包含所有可行的初始状态，且Xi,T ? Xi,N ∈ Xi。
4.1. 递归可行性分析
定理1：在假设1下，问题1中包含约束（5）保证了在Xi,N内的递归可行性。此外，Xi,N作为由（21）描述的闭环动态的鲁棒不变集。
定理1的证明：设表示在时刻k - 1问题1的最优解。那么时间k的控制序列是通过移动这个先前的最优轨迹合成的。（27）其中状态是对应于的终端预测状态，并且满足∈ Xi,T。将代入系统（3）以获得状态序列（28），（28）。然后，（Ei,Xi,T,κi）满足假设1，∈ Xi,T且Xi,T是xi(k + 1) = fi(xi(k),κi(xi(k)))的不变集。因此，∈ Xi,T且∈ Ui。基于MPC三元组，可以证明（28）满足问题1的约束方程（9）-（11）。
根据（28）和（26），状态序列与通过问题1在时间k - 1的最优解构建的相同。从三角不等式得出，对于领头车（23）和所有前置车辆（24），对于任何，i = 2, ?, n，（29）。方程（30）的转换给出（30）。从三角不等式和（24）我们得出（31）。从[34]中的引理3和初始时间不等式（22），我们有（32）。将（29），（30）和（32）代入（31），得到（33）。从（23），（24）和（33），对于任何pi, i = 2,3, ?, n，我们有（34）。将（30）代入（34）可以得到（35）。因此，（36）是有界的并且满足（36）。方程（37）右侧的系数满足引理1的要求。因此，构建的状态序列满足（12）。同样，问题2的可行解也是通过上述证明得出的。此外，设表示在时刻k问题2的最优优化器，我们有（37）。考虑到（28），（37）并结合（18），我们得出（38）。从（39）和假设1，我们有（39）。将（17）与（18）结合，并将不等式（39）代入方程（17），值函数得出?i(xi(k),λi) ≥ 0。此外，将代入方程（13）中的Ji(xi(k),ui(k)的左侧，我们得出（40）。因此，对于任何给定的λi ≥ 0，都有（38）。因此，鉴于构成了问题1的可行候选解，调用定义3确保初始状态满足xi(k) ∈ Xi,N。因此，Xi,N被建立为由（21）描述的闭环动态的不变集。
4.2. 稳定性分析
定理2：如果假设1成立，问题1在初始时刻有可行解。那么，闭环系统（21）的平衡点xi,s在Xi,N中是渐近稳定的且可行的，对于任何给定的λi ≥ 0。此外，如果（22）-（24）成立，则车队系统在上述条件下满足串稳定性。
定理2的证明：问题1在初始时刻对于任何给定的λi ∈ [0, 1]是可行的。和分别表示在时间k - 1和k时问题1的最优解。根据[35]，候选李雅普诺夫函数Vi满足，其中σ1(·)和σ2(·)是K类函数[35]。关于闭环系统（21）定义了和。然后，沿着闭环系统（21）的轨迹在相邻时间计算差分操作；考虑到方程（13）和（18），我们得出（41）。从假设1，（39），（40），（41），我们有（42）。这里，λi ∈ [0, 1)，且Li(xi,ui)是正定函数。因此，值函数Vi(xi)Vi(xi)沿着闭环系统（21）的轨迹表现出严格单调递减。这意味着成本函数Ji(xi,ui)相对于平衡点是正定的，从而保证了系统（21）在集合Xi,N内的渐近稳定性。
4.3. 保证的串稳定性
定理3（串稳定性）：如果保持优化问题的递归可行性，则车队保证能够以ρ的衰减率实现严格的串稳定性。
定理3的证明：通过强制执行所有预测步骤k的约束，并且假设实施了最优控制输入（滚动时域），实际的闭环误差满足。由于ρ < 1，误差不会向上游放大，因此保证了串稳定性。在任何时候，问题1都存在可行解，闭环系统（21）关于平衡点是渐近稳定的。参数ζi,γi,εi,k的值在（22）-（24）中指的是[34]中的引理3。结合（22）-（24）得出（5）。因此，可以建立闭环系统的串稳定性。
注释5：上述证明表明，车辆的稳定性与邻近车辆的状态无关。如果车辆合并成车队，其稳定性不会受到影响，那么整个车队满足跟踪稳定性。因此，本文中的车队系统是灵活且可扩展的。LQR问题通过在平衡点(xi,s,ui,s)对模型进行线性化来解决，然后得到终端惩罚函数和局部控制器κi(xi) = Ki (xi ? xi,s) + ui,s，其中平衡点为(xi,s,ui,s)T = (0, 0, 48.9087)T，终端区域为Xi,T = {xi ∈ : Ei(xi) ≤ 0.0318}。表1. 车辆参数。表2. 车辆增益参数。5.1. 提出策略与加权方法的比较在图2a中，问题1和问题2分别进行了解决，其约束条件为方程(9)–(12)，分别用C–MPC和S–MPC表示。模拟结果见图3。然后，我们将提出的分层策略与加权函数方法进行比较，其中τ = 0.7。在本文中，提出的策略和加权方法分别用D–MPC和W–MPC表示。图3. 车队中每辆车的相对状态和价值函数。图3b展示了一种情况，即在没有保证跟踪稳定性的情况下；当仅考虑动态共识目标时（例如，在C–MPC方法中），车队系统会变得不稳定。而当仅优化跟踪性能时，该方法没有解决动态共识与稳定性之间的权衡问题。接下来，我们将提出的策略与加权函数方法进行比较。为了研究控制策略对控制器设计参数变化的鲁棒性，进行了比较模拟。需要注意的是，在这种情景中没有引入外部干扰。相反，我们有意调整了定义收缩约束的参数（方程(12)）并修改了成本函数中的权重矩阵Gi和Fi。这种设置评估了每种方法对次优或变化参数选择的敏感性，这在实际应用中是一个常见挑战。如图4b所示，当权重(Gi, Fi)和约束参数偏离其标称值时，传统的加权MPC在间距误差和车辆速度上表现出明显的振荡行为。状态在稳定之前会有显著波动。这一现象表明，传统方法的稳定性对权重矩阵的精确调整非常敏感；轻微的偏差可能会破坏闭环系统的阻尼特性，导致不希望的瞬态现象。相反，如图4a所示，提出的策略对参数变化表现出显著的不敏感性。图4. 车队中每辆车的相对状态。相比之下，提出的方法无论参数调整误差如何，都能保证平稳的瞬态响应。这一结果验证了所提出的框架提供了更鲁棒的设计，具有更宽的稳定性裕度，减少了传统加权MPC方法所需的繁琐试错调整。此外，这种方法需要辅助稳定性条件，使其实现比我们提出的策略更复杂。在模拟的最后6秒内，对七辆车的相对位置误差进行了统计分析，以计算平均值和标准差。这些可忽略的值证实了没有任何显著的误差漂移或低频振荡。表3. 相对位置误差的平均值和标准差。为了证明系统的实时可行性，对车队优化控制的单步计算时间进行了统计分析，结果如图5所示。图5. 计算时间。如图5所示，计算负担始终保持在采样间隔之内。每辆车的最大和平均单步计算时间见表4，确认控制器可以在所需时间框架内舒适地更新控制输入，而不会造成延迟或数据包丢失。表4. 最大和平均计算时间。5.2. 异质性分析在实际场景中，车辆车队通常由具有不同动态特性的异构车辆组成。为了验证在这种情况下提出的策略的稳定性，本小节考虑了一个由五辆异构车辆组成的车队，其参数详细列在表5中。相关的通信拓扑结构如图2g所示。表5. 异构车辆参数。关于控制器设计，成本函数中的权重矩阵Qi、Ri、Fi和Gi按表2中的规定选择。随后通过线性二次调节器（LQR）方法推导出反馈增益矩阵Ki和终端权重矩阵Pi。模拟性能结果如图6所示。图6. 车队中异构车辆的相对状态。如图6所示，车辆之间的协作控制成功实现。相对位置误差渐近收敛到0，同时车辆速度精确跟踪参考轨迹，从而实现了整个车队的共识控制。5.3. 可扩展性为了评估提出的策略的可扩展性，对不同规模的同质车队（3辆和12辆车辆）进行了模拟。具体参数配置见表1和表2，相关的通信拓扑结构如图2e,f所示。结果性能指标总结在图7中。提出的策略对于3辆和12辆车辆的车队都实现了有效的协作控制。系统表现出稳定性，相对位置误差收敛到零，车辆速度跟踪所需的参考值。图7. 车队中车辆的轨迹。5.4. 在混合通信拓扑下的共识为了证明提出的策略在各种混合通信拓扑下既能保证稳定性又能保证状态共识，进行了对应于图2b,c配置的模拟。结果性能如图8所示。图8. 不同拓扑下车队中每辆车的状态。从图8可以看出，每辆车都达到了所需的速度，同时满足了定义1中概述的条件；车队中每辆车的相对预期位置偏差最终收敛到0并达到稳定状态。因此，分层策略可以协调车队的稳定性和动态共识，并且在各种混合通信拓扑下也能保证稳定性和共识性能。5.5. 在不同权重下的收敛性在本小节中，我们展示了权重Fi和Gi对共识性能的影响，这取决于混合通信拓扑。在小节中选择了图2d，具体的权重参数列在表6中，相应的模拟结果如图9所示。表6. 共识目标函数的权重。图9. 不同权重下的相对状态。图9表明，车队收敛到所需速度并达到稳态运行，展示了该策略在不同动态共识权重参数变化下的性能。图10展示了四辆车的动态共识性能。在情况1中，收敛速度最快；在情况2中最慢，在情况3中处于两者之间。因此，矩阵Fi和Gi的大小对动态共识有影响，这是对结果[34]的扩展。然后，可以根据实际系统设计相应的控制策略。图10. 动态共识性能函数。5.6. 在复杂动态条件下的性能验证通过在不同操作条件下的广泛模拟，验证了该策略的有效性。具体来说，我们考虑了紧急加速和减速操作来测试动态响应能力，以及变化的道路摩擦（道路摩擦μi ± 10%）的情景，以评估在不同环境参数下的性能。图11展示了模拟得到的系统动态行为。图11. 在不同驾驶操作和条件下的状态轨迹。如图11a所示，在紧急加速情景下，车队系统跟踪了24 m/s的期望速度。经过一个瞬态阶段后，系统实现了协作控制，达到目标速度，同时相对位置误差最终消失，表明了成功的编队保持。图11b展示了紧急减速情况，其中期望速度降低到16 m/s。经过短暂时间后，系统稳定并满足控制要求。系统加速在紧急加速和减速情景下满足了性能要求。图11c表明，在不同的道路摩擦系数下，车队系统同样实现了协作控制并满足了共识。6. 讨论虽然提出的分层DMPC框架在混合切换拓扑下表现出鲁棒稳定性，但现实世界的车辆车队面临着额外的复杂性，包括通信不完善、车辆异质性和动态环境变化。在本节中，我们讨论了如何通过结合鲁棒控制、联邦学习和图表示学习的最新进展来扩展我们当前的定向图框架和收缩约束机制。具体来说，我们解决了三个关键问题：通过鲁棒约束收紧来处理通信延迟，将我们的架构与异构系统的联邦学习相结合，以及使用类别引导的图概念和自适应学习来改进我们的拓扑建模。6.1. 高级图表示和自适应参数学习通过超越二进制邻接矩阵，采用语义丰富的图结构可以显著增强混合通信拓扑的建模。受到[16]的启发，我们的定向图框架可以扩展以捕捉复杂的、不对称的交互模式。在当前模型中，所有邻居对成本函数的贡献是相同的。在高级扩展中，边权重将成为依赖于类别的函数，为关键节点（例如，前面的重型卡车或车队领导者）分配更高的“语义重要性”，为不太重要的邻居分配较低的权重。这反映了类别引导的机制，其中特定节点类型决定了聚合策略，使控制器能够优先处理对安全和稳定性最为重要的信息流。[16]中的分层图卷积概念同时捕捉了局部细节和全局上下文。我们现有的分层MPC结构与此自然吻合。我们可以将较低的控制层解释为处理局部高频交互（立即的前驱，类似于细粒度图卷积），而上层协调层处理长距离低频依赖性（全局共识，类似于粗粒度池化）。这使得框架能够明确建模不对称的信息流，其中广播消息（全局）和V2V单播消息（局部）以不同的粒度进行处理。补充这种结构演进的是，我们模拟中的固定收缩参数λ可以替换为间歇性的动态学习机制。借鉴自适应控制策略如间歇性动态模糊学习[20]，一个轻量级在线学习器可以监控实时交通状况和拓扑切换频率，以动态调整λ。例如，在密集、高动态的交通中，λ可以收紧以加快收敛速度；而在稀疏、稳定的条件下，可以放宽λ以减少控制努力和燃料消耗。这种类别感知图建模与自适应参数调整之间的协同作用将把我们的静态框架转变为一个能够实时自我优化其交互模式和收敛速度的响应式智能系统。6.2. 对抗通信不完善和无偏移机制的鲁棒性当前的公式假设了理想的信息交换；然而，实际的V2X网络本质上具有时变通信延迟和随机数据包丢失的特点。为了在这种条件下保持稳定性和共识，我们的框架可以通过整合鲁棒约束收紧机制来扩展，这在最近关于无偏移分布式控制的网络系统研究中得到了系统探索[17]。具体来说，关于延迟对我们分层框架的影响：在分层共识方面：上层共识优化依赖于邻居状态信息。通信延迟τ意味着车辆i使用过时的状态xj(k ? τ)而不是xj(k)。在我们的公式中，这在共识成本函数（方程（6）中引入了一个有界干扰项。由于下层MPC以更快的采样率运行，并且严重依赖于本地车载传感器进行即时跟踪，它可以有效地补偿由上层延迟产生的“抖动”，前提是τ在预测范围N之内。在整体稳定性方面：收缩MPC的理论分析表明，如果延迟引起的误差保持在由方程（13）定义的收缩区域内，稳定性得以保持。具体来说，如果延迟τ满足τ < Tmargin（其中Tmargin是从系统的Lipschitz常数和收缩系数γ推导出来的），那么李雅普诺夫函数减少条件（定理2）仍然成立，尽管收敛速率可能会变慢。如果 τ 超过了这个界限，收缩约束可能会变得不可行，导致潜在的不稳定性或串稳定性问题，其中错误会向上游放大。在这个扩展的视角中，我们的优化问题中的状态约束 Xi 将被一组更严格的 Xi??i 替代，其中 ?i 是一个鲁棒的不变集，可以吸收由延迟和数据丢失引起的最坏情况估计误差。?i 的大小将根据观察到的通信质量动态变化。此外，借鉴 [17] 中的无偏移控制策略，可以在我们的分层 MPC 层中嵌入积分动作或干扰观测器。这将确保即使延迟信息导致暂时的轨迹偏差，系统也能渐进地拒绝这些干扰并实现零稳态误差。我们进一步详细阐述了 [17] 中提到的联邦收益范式如何增强我们的方法。车辆可以协同学习车队中通信质量的统计分布，而无需共享原始数据，而不是使用保守的固定延迟/损失界限。这种学习到的模型将允许动态调整收紧幅度：在网络健康时缩小幅度（提高性能），在检测到拥堵或干扰时扩大幅度（确保安全）。这可以在鲁棒性和最优性之间创造出平衡。

6.3. 异构车队的联邦学习的概念桥梁
现实世界中的车队通常由不同类型的车辆组成（例如，重型卡车与乘用车），这些车辆具有不同的动态参数。标准的同质 DMPC 可能难以同时优化所有代理的性能。通过采用个性化联邦学习 [18] 的见解，我们的上层协调层可以作为一个“全局模型聚合器”，学习共同的交通流模式，而下层本地层则作为“个性化客户端”。每辆车都将维护一个针对其特定物理特性的本地动态模型，利用预测误差补偿来纠正模型不匹配。在这种混合设置中，方程 (5) 将被适应性加权：对于同质群体采用更严格的权重以确保串稳定性，而对于异构边界则采用更宽松的权重以允许必要的本地适应。这种方法在车队范围内的连贯性和多样车辆动态所需的灵活性之间取得了平衡。这种类比为解决车辆异质性问题提供了一条强有力的途径。

值得注意的是，所提出的分层 MPC 架构与基于联邦学习的分布式控制的最新进展 [19] 在概念上有相似之处。具体来说，方程 (13) 中定义的收缩约束机制与联邦优化中常用的共识正则化项非常相似。在联邦设置中，正则化项被引入到本地损失函数中，以惩罚本地模型参数与全局聚合值之间的差异，从而在不共享原始数据的情况下推动网络达成共识。类似地，我们的收缩约束（方程 (13)）强制每辆车的状态偏差随时间减小，有效地将个体跟踪性能与车队的共识目标联系起来。虽然促进一致性的概念目标相似，但方程 (13) 在我们框架中的数学作用更为严格。与联邦学习中引导梯度下降方向的软惩罚不同，方程 (13) 是作为 MPC 优化问题（问题 1）中的硬约束施加的。这种设计选择对于递归可行性和稳定性至关重要。我们强调这种联系开辟了新的途径：未来的工作可以整合联邦学习算法，根据数据驱动的见解动态调整收缩参数 λ 或共识参考，将我们方法的严格稳定性与联邦学习的适应性结合起来。

7. 结论
本文提出了一个分布式分层控制框架，适用于离散时间非线性系统，该框架结合了状态和控制输入约束以及混合通信拓扑结构。通过将跟踪稳定性最优值函数作为约束纳入动态共识优化问题中，我们为车队串稳定性和共识优化的递归可行性建立了充分条件。数值仿真表明，所提出的策略在混合拓扑结构下有效地平衡了稳定性与动态共识之间的权衡，同时保证了两种性能指标。进一步涉及异构动态、紧急操作和可变摩擦条件的仿真证明了该算法的卓越性能，证实了车队在多种场景下实现协作控制的能力。此外，我们分析了惩罚权重对动态共识性能的影响。未来的研究将致力于实验验证和将所提出的框架扩展到适应异构车辆动态。至关重要的是，虽然本研究假设了理想的通信条件，但实际部署面临诸如时变延迟和数据包丢失等挑战。从最近的网络系统无偏移分布式控制的进展 [17] 中获得启发，我们的未来研究将把鲁棒约束收紧机制集成到分层 MPC 框架中。这一扩展旨在系统地补偿通信缺陷，确保在现实网络约束下保持稳定性和共识性能。

热点排行