采用单一优化器同时对教师-学生网络和状态估计器进行训练,以实现动态轮式双足机器人的运动控制
《ADVANCED ENGINEERING INFORMATICS》:Concurrent training of teacher-student networks and state estimator with a single optimizer for dynamic wheeled bipedal robots locomotion
【字体:
大
中
小
】
时间:2026年04月08日
来源:ADVANCED ENGINEERING INFORMATICS 9.9
编辑推荐:
提出基于并发教师-学生强化学习的轮腿机器人控制框架CTS-E,无需动态模型,整合状态估计器实现显式速度和高度估计,通过单优化器协同训练教师与学生策略,减少保守性并提升地形适应性和抗干扰能力,实验验证在轨迹跟踪、地形穿越等任务中性能优于现有方法。
轮式双足机器人作为新一代移动平台,正逐步突破传统轮式机器人和纯腿式机器人的性能边界。该研究团队通过构建 concurrent teacher-student强化学习框架(CTS-E),在控制策略设计上实现了多项突破性进展。这种融合了动态表示学习与教师-学生模仿的架构,成功解决了传统控制方法在复杂地形中的适应性难题。
在方法创新层面,研究首次将状态估计模块与双师学习机制相结合。教师网络通过特权编码器整合环境信息与领域参数,形成包含地形特征、运动模式等隐性知识的表征空间。学生网络则采用本体感觉编码器,仅依赖机器人自身运动传感器数据,通过模仿教师网络的输出实现动态调整。这种双编码器架构既保留了深度强化学习的环境感知优势,又通过本体感觉输入增强了系统对传感器噪声的鲁棒性。
训练机制上的重大革新体现在单优化器协同训练策略。传统方法往往分阶段训练教师和学生网络,导致学生网络可能过度依赖教师网络而丧失自主探索能力。该框架通过共享基础策略网络,建立教师与学生之间的实时反馈通道。实验数据显示,这种并行优化机制使学生网络在初始训练阶段就能接触失败状态,从而培养出更具泛化能力的控制策略。
状态估计器的创新设计尤为突出。该模块不仅负责实时估算身体线速度和垂直高度,更通过监督学习将部分输出固化为显式物理量。这种显隐结合的估计机制,既保留了深度学习模型的非线性映射能力,又通过物理先验知识约束了状态估计的范围,有效提升了命令跟踪精度。对比实验表明,在崎岖地形条件下,目标速度跟踪误差降低17.85%,身体高度跟踪误差减少32.98%。
实际应用验证阶段,研究团队在真实机器人平台上开展了四项关键测试:1)命令跟踪能力测试,涉及平地匀速、斜坡爬行、障碍跨越等12类典型运动模式;2)动态平衡恢复测试,模拟 legs 突然脱勾的极端工况;3)外部扰动抑制测试,包含侧向推力、垂直冲击等6种干扰场景;4)复杂地形适应测试,涵盖连续石块、软泥地、楼梯等8类非结构化地形。所有测试均未进行参数调优,仅通过调整关节微分系数和控制器采样频率至500Hz,就实现了超过90%的指令跟踪成功率。
技术实现路径上,研究团队采用模块化设计策略。教师网络由基础策略层和特权编码器层构成,特权编码器通过预训练方式学习到包含动力学约束的本体感觉先验知识。学生网络则由基础策略层、本体感觉编码器层和状态估计器层叠加,其中状态估计器采用两阶段训练机制:初期通过监督学习掌握基础物理关系,后期与强化学习框架联合训练形成动态补偿机制。这种分层训练策略既保证了状态估计的物理正确性,又维持了强化学习的探索能力。
在工程实现方面,研究团队开发的控制器模块具有显著优势。首先,系统采用统一接口设计,教师和学生网络共享相同的输出层结构,便于实现算法迁移。其次,状态估计器与强化学习框架的深度耦合,使得在训练过程中能实时验证状态估计的准确性,避免传统方法中存在的估计偏差与控制策略冲突问题。最后,提出的轻量化架构使控制算法在嵌入式平台上达到50Hz以上的实时性要求,为实际部署奠定了基础。
该研究对机器人控制领域具有重要启示意义。通过构建环境感知与物理约束的协同学习框架,不仅突破了传统模型依赖型控制方法的局限性,更开创了双足轮式机器人自主适应复杂环境的新的技术路径。实验数据表明,在连续障碍跨越测试中,系统展现出优于传统MPC控制策略38%的动态响应速度,且在软地面条件下仍能保持稳定的姿态控制。这些成果为下一代通用服务机器人的开发提供了可复用的技术方案。
未来研究方向可聚焦于三个维度:1)动态环境建模,当前系统对突发地形变化的适应仍存在滞后;2)多任务协同优化,现有框架主要解决单一运动模式控制;3)边缘计算部署,需进一步降低算法对算力的需求。该研究团队已在与高校合作开展相关研究,计划将控制算法迁移至工业级轮式双足机器人平台,预计在2025年可实现商业化应用。
这项工作不仅推动了机器人控制理论的发展,更重要的是构建了可迁移的智能控制框架。其核心价值在于通过深度强化学习实现了环境感知、状态估计和策略优化的有机统一,为复杂机器人系统的自主控制提供了新的方法论。随着多模态传感器技术的进步,该框架在医疗辅助机器人、物流配送机器人等领域的应用潜力值得期待。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号