基于数字孪生(Digital Twin, DT)增强的深度确定性策略梯度-软硬约束(Deep Deterministic Policy Gradient with Soft-Hard Constraints, DDPG-SH)算法的TerraVolt四轮独立驱动农机节能驱动控制及地形参数动态辨识
《Smart Agricultural Technology》:An intelligent energy-saving control strategy for agricultural power robots enabled by digital twin
编辑推荐:
研究人员提出一种数字孪生(Digital Twin, DT)增强的深度确定性策略梯度—软硬约束(DDPG-SH)能量节约驱动控制策略及地形参数动态辨识方法,用于四轮独立驱动耕地作业平台TerraVolt。首先建立集成单轮纵向动力学模型与超螺旋滑模观测器(Sup
研究人员提出一种数字孪生(Digital Twin, DT)增强的深度确定性策略梯度—软硬约束(DDPG-SH)能量节约驱动控制策略及地形参数动态辨识方法,用于四轮独立驱动耕地作业平台TerraVolt。首先建立集成单轮纵向动力学模型与超螺旋滑模观测器(Super-Twisting Observer, STO)的车轮纵向力估计算法,结合基于粒子滤波(Particle Filter, PF)的轮—土相互作用模型实现地形参数(土壤内聚力CI,ij)在线动态辨识,构建高保真Virtual-TerraVolt数字孪生模型。在此基础上设计含专家知识引导软约束(多尺度状态量纲归一化)与硬约束(驱动电机转矩—转速包络限制及单位时间转矩变化率δT限制)模块的DDPG-SH算法,以纵向车速跟踪误差、四轮滑移率、转矩波动惩罚及电机输入功率构成多目标奖励函数,在DT环境中训练Actor-Critic网络并获得近最优转矩分配策略。仿真与田间试验结果表明:相比传统PID作业速度控制器和传统DDPG算法,DT增强DDPG-SH策略使TerraVolt滑效率提高7.2%,作业速度稳定性(RMSE)提升36.77%(仿真)/43.21%(田间),单位时间能耗降低7.19%(仿真)/10.26%(田间);Virtual-TerraVolt模型对实车速度、加速度、轮速及滑移率的平均绝对误差分别不大于0.04 m/s、0.13 m/s2、0.32 rad/s和0.04,满足DT训练精度要求。该方法通过虚实交互与迭代优化机制,为智能农机在复杂时变土壤环境下的能效优化与稳定控制提供了新途径。
《基于数字孪生增强DDPG-SH算法的四轮独立驱动农机节能驱动控制与地形参数动态辨识》论文解读
一、研究背景与立项依据
现代农业向Smart Agriculture 5.0发展背景下,四轮独立驱动耕地装备因高机动性与精确转矩分配潜力受到关注,但在松软/已耕—未耕交替土壤中进行犁耕作业时面临两大瓶颈:其一,轮—土相互作用具强非线性且 terrain参数(如土壤内聚力CI,ij、接触尺寸bch、dch)时变未知,传统固定参数车辆动力学模型难以支撑高精度控制;其二,分布式驱动系统为高维连续动作空间强耦合非线性对象,经典PID作业速度控制器无法兼顾滑移抑制与能耗最优转矩分配,而原始Deep Deterministic Policy Gradient (DDPG) 深度强化学习(Deep Reinforcement Learning, DRL) 算法存在多尺度物理量收敛难、忽略电机物理硬约束致不可行动作等问题。因此,开展TerraVolt(四轮独立驱动电机犁耕作业平台)的高保真Digital Twin (DT, 数字孪生)建模、terrain parameter动态辨识及带领域知识约束的DRL节能驱动控制研究具有重要工程价值,相关成果发表于《Smart Agricultural Technology》。
二、主要关键技术方法
研究人员采用的主要技术路线包括:(1)基于单轮转动惯量J方程与Super-Twisting Observer (STO, 超螺旋滑模观测器)设计各轮纵向力F?x,ijSTO估计律(含增益εij、αij有限时间收敛证明);(2)基于Bekker-type轮—土力学模型将Fx,ij观测值代入,采用Particle Filter (PF, 粒子滤波)对四个车轮各自terrain parameter CI,ij进行非线性非高斯动态估计(SIR重采样克服权值退化);(3)将STO与PF嵌入TerraVolt整车7-DOF(纵移、俯仰、侧倾、四轮旋转)动力学模型构建Virtual-TerraVolt数字孪生,以田间实测牵引阻力Fp、车身姿态θ、φ校验仿真吻合度;(4)定义Markov Decision Process (MDP)状态空间s={vx, Δvx=vxd?vx, Fp, θ, φ, SOC, P},动作空间a={Tfl, Tfr, Trl, Trr},奖励函数r=?[c1(Δvx/w1)2+c2·max|slipij|+c3·ΔuTRΔu/w32+c4·Σ(Tijωijηij)/w42],引入soft constraint(专家经验加权系数w1~4无量纲化多源异构信号)与hard constraint(clip(Tij, Tlow, Thigh)及转矩变化限幅δT)形成DDPG-SH算法,在Virtual-TerraVolt中完成Actor-Critic网络训练(经验回放、Target Network软更新τ);(5)以PID作业速度控制器、无DT的conventional DDPG、有DT但无SH模块的DDPG为对照,分别在MATLAB/Simulink仿真及Beijing Agricultural Machinery Test Station砂壤土犁耕现场(耕深150 mm,目标速度0.9 m/s)进行对比验证,评价指标含滑效率SE、速度RMSE、总耗电量Wh、SOC轨迹。
三、研究结果
4.1. Virtual-TerraVolt model verification(虚拟TerraVolt模型验证)
4.1.1. Terrain parameter identification results(地形参数辨识结果)
STO对fl/fr/rl/rr轮纵向力估计平均误差分别为68.25 N、65.73 N、62.77 N、61.80 N;PF辨识得到左轮CI,ij范围300–700 psi(未耕硬土)、右轮100–400 psi(已耕软土),平均辨识误差左前24.28 psi、右前6.31 psi、左后23.97 psi、右后6.11 psi,证明所提STO+PF可捕捉左右侧土壤差异并给DT模型提供可靠terrain parameter输入。
4.1.2. Virtual-TerraVolt model validation results(虚拟TerraVolt模型校验结果)
闭环动态校验显示Virtual-TerraVolt与Physical-TerraVolt的速度、纵向加速度、四轮角速度及滑移率平均绝对误差分别为≤0.04 m/s、0.13 m/s2、≤0.32 rad/s、≤0.04,趋势高度一致,证实DT可复现实车动态响应,满足后续DRL训练环境保真度需求。
4.2. DT-enhanced DDPG-SH energy-saving drive control strategy verification results(DT增强DDPG-SH节能驱动控制策略验证结果)
4.2.1. DT-enhanced DDPG-SH training and convergence(训练与收敛性)
相同DT环境下DDPG-SH较baseline DDPG提前约200回合收敛(800 vs 1000回合),且稳定后累计回报更高——soft constraint加速policy iteration,hard constraint缩小可行动作空间避免无效探索,证明DDPG-SH具更优学习效率和最终控制性能。
4.2.2. Simulation experiment(仿真实验)
对比四种策略:DT-enhanced DDPG-SH平均滑效率0.775(较PID控制器0.723提升7.2%)、平均速度3.23 km/h(RMSE 0.294,优于conventional DDPG之0.465)、平均功率9.43 kW最低、SOC终止值98.69%(耗电157.2 Wh,较PID控制器169.7 Wh节能7.19%);DT-enhanced DDPG次之(耗电157.7 Wh,滑效率0.758);conventional DDPG耗电168.5 Wh。表明DT引入显著改善DRL对环境适应性,DDPG-SH进一步兼顾能耗与速度稳定性。
4.2.3. Field operation test(田间作业试验)
实际犁耕中DT-enhanced DDPG-SH平均速度3.23 km/h(RMSE 0.138,较conventional DDPG之0.243提升43.21%速度稳定性)、耗电148.84 Wh(较PID控制器165.87 Wh节能10.26%);DT-enhanced DDPG耗电154.93 Wh(节能6.59%)。结果与仿真一致,证实所提方法可由虚拟空间迁移至实车并保有工程可用性。
四、讨论与结论翻译
讨论指出DT是核心——Virtual-TerraVolt融合动态terrain parameter辨识超越静态简化模型,令agent在近似真实工况下探索;soft-hard constraint模块将领域知识结构化注入学习过程以加速收敛并保证动作物理可行性;DT-DRL框架通过虚实交互避免训练期损害实车且减轻车载运算负担,未来可通过新增作业数据更新DT并重训agent以适应环境演化。局限含Virtual-TerraVolt对轮—土高阶非线性及电机延时的适度简化、PF辨识精度与实时性待提升、未实现agent在线实时策略刷新、验证暂限于单一耕深与目标车速。
结论翻译如下:
研究人员建立集成动态参数辨识的Virtual-TerraVolt模型,基于单轮纵向动力学与STO设计纵向力估计算法,提出基于轮—土相互作用与PF的terrain parameter动态辨识方法并融入Virtual-TerraVolt;提出融合专家引导软硬约束模块改进DDPG-SH算法之节能驱动控制策略,解决多尺度状态信息融合及驱动电机物理极限问题,借助高精度Virtual-TerraVolt生成高效节能控制策略;仿真表明相较作业速度控制器,所提DT增强DDPG-SH策略使TerraVolt能耗降低7.19%、速度稳定性较conventional DDPG提升36.77%,田间试验验证速度稳定性提升43.21%、较作业速度控制器节能10.26%。该DT-DRL框架为动态作业场景下智能农机能耗优化与稳定控制提供完整技术路径与实证参考。