《Mathematics》:Dynamic Games with Mixed State-Control Constraints and Uncertain Mathematical Models: ε-Nash Equilibrium by DNN Realization
编辑推荐:
不确定动态对策(Uncertain Dynamic Games)近年来已成为分析和综合复杂随机动态多智能体决策过程的重要框架。通过将动态对策理论与神经网络函数逼近技术相结合,可在存在状态与控制约束的多智能体时序交互问题中设计自适应数据驱动策略。然而实际系统中模
不确定动态对策(Uncertain Dynamic Games)近年来已成为分析和综合复杂随机动态多智能体决策过程的重要框架。通过将动态对策理论与神经网络函数逼近技术相结合,可在存在状态与控制约束的多智能体时序交互问题中设计自适应数据驱动策略。然而实际系统中模型误差、外部扰动及参数不确定性会严重恶化性能甚至破坏稳定性。本文研究定义在受扰及不确定系统模型上的动态对策问题,显式引入状态约束与控制约束,旨在竞争与合作场景下保证鲁棒性与可靠性。研究人员考虑一类受未知扰动与不确定参数影响的非线性动态对策,采用动态神经网络(Dynamic Neural Network, DNN)逼近相应鲁棒控制问题的可行解,通过由最坏情形(worst-case)轨迹驱动的学习机制刻画ε-Nash均衡。理论分析阐明了扰动与不确定性对均衡存在性、收敛性及闭环稳定性的影响,并给出使神经学习动态在有建模缺陷时仍能保证有界且收敛至近似Nash或鞍点均衡的充分条件。所提框架融合鲁棒控制理论与基于学习的对策方法,为纯数据驱动方法通常缺失的形式化保证提供了支撑。数值仿真验证了该方法较名义(nominal)神经对策公式具有增强的鲁棒性,可推广至自动驾驶系统、机器人及不确定环境下的网络控制系统。
论文解读:含混合状态-控制约束及不确定数学模型的动态对策——基于DNN实现的ε-Nash均衡
一、研究背景与意义
经典微分对策(Differential Game)与非合作动态对策通常假设系统动力学精确已知,状态集与控制集先验给定且无模型不确定性,并依赖Pontryagin极大值原理(Pontryagin's Maximum Principle, PMP)推导Nash均衡或零和博弈鞍点策略。然而实际多智能体系统(如自动驾驶车辆、多机器人协作)普遍存在未建模动态、参数摄动和外部扰动,同时必须满足物理安全限定的状态约束(如位置边界)与控制约束(如执行器饱和)。传统基于精确模型的解析与数值方法在此类情形下难以求解,且维度灾难(curse of dimensionality)使网格离散法失效。近年神经网络作为通用函数逼近器被广泛用于近似值函数、协态(adjoint/co-state)变量及Hamiltonian,但在含显式状态-控制约束及模型不确定性的鲁棒动态对策中,神经网络的系统化嵌入仍属空白。本文发表于《Mathematics》,研究人员针对具输入仿射(input-affine)非线性、含未知扰动Δi(·)与参数不确定性的N人非合作动态对策,建立基于最坏情形(max–min / worst-case)的鲁棒Hamiltonian形式,用动态神经网络(Dynamic Neural Network, DNN)参数化协态与反馈控制律,借助Tanaka–Yokohama(TY)函数与修正Kiefer–Wolfowitz随机逼近递归调整权值终端条件,证明所得策略构成ε-Nash均衡并保证闭环信号有界与收敛,数值验证其较名义LQR与名义神经对策具更优鲁棒性。
二、主要关键技术方法
研究人员采用含紧致有界不确定集Θi、Ωi的输入仿射非线性N人动态对策模型(式7),定义个体代价泛为终端+运行项(式14);引入个体Hamiltonian Hi(式15)与满足终值条件λi(tf)=?φi/?xi的协态方程(式16–17);以Tanaka–Yokohama函数T(u)=Σi[Ji(u-i,uiwc)?Ji(u)]作ε-Nash判据(定理1);取使Hi最大的最坏扰动Δi*(式26)生成最坏轨迹(式29–30);控制律由?Hi/?ui=0导出(式43),其中协态以线性反馈加DNN补偿结构λi(t)=Pi(t)xi(t)+WiT(t)σ(xi(t))近似(式44);DNN权值学习律依梯度类方程(式48–49),终端权值用确定型Kiefer–Wolfowitz方法(KWM, 式52–53)递归迭代满足终值条件(式50);状态盒约束投影用分段截断算子(式51)。三玩家数值算例对比名义LQR(式59)、最坏轨迹控制与所提鲁棒DNN对策。
三、研究结果
2. Mathematical Preliminaries(数学预备)
定义非合作N人对策中ε-Nash均衡:若任意第i位参与者单方面偏离策略ui'使代价增加超ε,则{ui*}为ε-Nash均衡点(定义1, 式1)。引入Tanaka–Yokohama函数T(u)=Σi[Ji(u-i, argminviJi(u-i,vi))?Ji(u)],定理1证明u*为ε-Nash均衡当且仅当T(u*)≥?Nε,为后续max–min推导奠基。
3. Problem Statement(问题陈述)
不确定动力学取?i=Aix+Bi∑juj+fi(x,t)+Δi(x,u,t,θi,ωi)(式7),Δi∈紧凸集Θi×Ωi(式8–9),fi局部Lipschitz,Δi对x可微(Assumptions 1–2)。个体代价Ji=φi(xi(tf))+∫Li(x,u,t)dt(式14),Li对u严格凸可微。明确状态约束xi∈Xi、控制约束ui∈Ui(后取盒形‖ui‖≤uimax及xi∈[ximin,ximax])。
4. Hamiltonian Representation of Cost Function(代价函数的Hamiltonian表示)
定义个体Hamiltonian H
i(t,x,u,λ
i,Δ
i)=L
i+λ
iTAix+Bi∑uj+fi+Δi,协态满足?λ
i=??H
i/?x、λ
i(t
f)=?φ
i/?x
i(式16–17)。定理2证得J
i(u)=φ
i(x
i(t
f))+∫[H
i?λ
iT?
i]dt(式18–21),推论1得?H
i/?u
i=R
iu
i+B
iTλ
i=0(式22)。最坏扰动取argmax
ΔiH
i,当?H
i/?Δ
i=λ
iT?Δ
i/?(·)时达最大(式25–26),由此定义最坏轨迹?
iwc=…投影至X
i(式29–30)。
5. Robust Strategies Guaranteeing ε-Nash Equilibrium(保证ε-Nash均衡的鲁棒策略)
命题1说明最大化Hi关于Δi等价于最小化最坏情形代价。定理3证明若控制ui(t)满足supΔi∈ΔiHi(t,x,u,λi,Δi)≤infvi∈UisupΔiHi(t,x,(u-i,vi),λi,Δi)+ε(式34),则该多策略构成ε-Nash均衡。推论2指出若无约束且上式取等号即为精确Nash均衡(式37)。
6. Special Case: Quadratic Dependence on Control Action with Energy Box-Constraints(特例:控制二次型与能量盒约束)
设Li=xTQix+uiTRiui,引入Lagrange乘子μi≥0处理‖ui‖≤uimax,互补松弛条件μi(‖ui‖?uimax)=0(式40)。由?L/?ui=0得ui=??Ri?1BiTλi(式42–43),结合互补松弛确定激活约束时的μi。
7. DNN Realization of Robust Nash Equilibrium(鲁棒Nash均衡的DNN实现)
协态参数化为λ
i(t)=P
i(t)x
i(t)+W
iT(t)σ(x
i(t))(式44),σ(·)为光滑激励函数。代入最坏轨迹微分方程得权值演化?W
i=?η?/?W
iHi?λiT?iwc。定理4说明按此学习律生成的u
i(式43)保证纯(ε→0极限)鲁棒Nash均衡;定理5给出确保终端条件λ
i(t
f)=?φ
i/?x
i自动满足的权值初值选取条件(式50)。盒形状态约束投影算子Π
Xi[·]用分量截断实现(式51)。
8. Recursive Method to Realize the Terminal Conditions for the Weights Dynamics(权值终值的递归实现)
由于边值问题难直接解,采用修正确定型Kiefer–Wolfowitz方法迭代初值Wi(0):Wi(k+1)(0)=Wi(k)(0)?ck[J(Wi(k)(0)+δkej)?J(Wi(k)(0)?δkej)]/(2δk)(式52),步长ck=c0/kα,扰动δk=δ0/kβ(式53, α,β∈(0.5,1]),递归直至终值残差小于阈值,将连续Hamiltonian驱动的动态学习与离散权值调优结合成混合系统。
9. Numerical Simulations(数值仿真)
三玩家系统A
i,B
i,Q
i,R
i给定(式54–57),初始x
i(0)(式55),扰动Δ
i取周期有界非线性函数(式56),状态盒约束x
i,j∈
?2,2,控制‖u
i‖≤0.5。对比:(i) 所提鲁棒DNN对策u
iDNN,(ii) 最坏轨迹下控制u
iwc,(iii) 解耦无扰动无约束名义LQR u
iLQR=?K
ix
i(式59)。结果显示:DNN对策使状态各分量围绕原点小幅振荡且幅值小于另两者,满足约束;代价函数J
1,J
2,J
3分别较LQR降低约8倍、3倍、3.5倍,较最坏轨迹控制降低约25倍、4.5倍、3.1倍;Tanaka–Yokohama函数T(t)负向渐近趋于?Nε,验证ε-Nash性质。
四、讨论与结论
研究人员得出结论:对于含紧致有界模型不确定性、外部扰动及显式状态-控制盒约束的输入仿射非线性N人动态对策,通过构造最坏情形max–min Hamiltonian并结合DNN对协态与反馈律的参数化近似,采用Kiefer–Wolfowitz递归满足终值条件,所得分散式控制策略构成ε-Nash均衡。在适当条件下神经权值学习与闭环状态、协态均有界且收敛。数值结果表明该鲁棒DNN对策相较名义LQR及不考虑不确定性的神经对策显著减小个体代价并维持约束可行性,证明将鲁棒控制原理嵌入神经动态对策架构可在模型不完善时提供理论保证与实用鲁棒性,为安全攸关多智能体系统(自动驾驶、网络化控制)奠定理论与计算基础。未来方向含部分可观与随机扩展、通信约束下的大规模群体推广及实机部署中的形式化安全验证。