一种改进的软 Actor-Critic 算法,用于飞机移动装配线中的多目标人机协作调度

《JOURNAL OF MANUFACTURING SYSTEMS》:An improved soft actor-critic for multi-objective human-robot collaborative scheduling in aircraft moving assembly lines

【字体: 时间:2026年04月24日 来源:JOURNAL OF MANUFACTURING SYSTEMS 14.2

编辑推荐:

  本研究针对航空移动装配线中人类-机器人协作(HRC)调度问题,提出多目标混合整数规划模型,通过改进的软演员-批评算法(ISAC)实现装配时间、人力负荷和总成本的最优平衡,实验表明ISAC在多个评估指标上显著优于传统强化学习方法。

  
本研究针对航空航天制造领域中的混合决策空间调度难题,提出了多目标协同优化框架和智能算法创新。在飞机移动装配线场景中,团队首次系统性地构建了融合任务执行模式柔性、人机协同负荷平衡与全周期成本优化的数学模型,并开发了具有自主知识产权的改进型强化学习算法ISAC。该研究突破了传统调度理论在复杂混合决策空间中的局限性,为智能航空制造提供了新的方法论支撑。

在问题建模层面,研究团队精准捕捉了现代航空制造的核心矛盾:传统全自动化模式面临柔性不足的瓶颈,而纯人工装配又存在效率低下的问题。通过构建混合整数规划模型,创新性地将任务执行模式(人工、机器人、协作)纳入决策变量体系,同时引入过程顺序约束矩阵和动态人机负荷平衡机制。这种建模方式首次实现了任务执行模式、资源分配策略与生产节拍参数的三维耦合优化,解决了传统方法割裂处理离散决策(任务模式选择)与连续变量(生产周期)的技术瓶颈。

算法创新方面,ISAC框架通过三个技术突破形成核心竞争力:首先,设计双通道状态编码系统,将离散的任务序列与连续的工时参数解耦处理,既降低维度又保持决策一致性;其次,开发动态约束满足的混合动作空间,通过前置工序约束矩阵实时生成可执行动作子集,确保强化学习过程符合物理装配逻辑;最后,构建三维度奖励函数体系,采用熵正则化技术平衡局部优化与全局搜索,配合非支配排序算法实现多目标帕累托前沿的动态追踪。

实验验证部分采用三层递进式测试策略:基础验证层构建标准尺寸的典型装配场景,验证算法在基准问题上的性能优势;规模扩展层设置从中小型到超大型(500+工序节点)的阶梯式测试案例,重点考察算法在复杂决策空间中的泛化能力;鲁棒性测试层引入突发性装配变更事件,评估系统动态响应与重规划能力。结果显示,ISAC在超大规模场景(N≥300)中展现出显著优势,时间效率提升78.5%,成本优化率达30%,且在多目标评估指标(GD、IGD+、EHV、RHyper)上均超越传统强化学习算法。

技术突破体现在三个方面:其一,首创任务执行模式的三元决策结构,通过模式切换矩阵量化不同执行方式的时空成本与负荷影响;其二,开发动态约束满足机制,利用工序优先级矩阵实时过滤不可行动作,将传统算法的不可行解率降低至0.3%以下;其三,构建多目标协同奖励函数,通过时间成本权重分配、成本-负荷平衡因子等参数动态调整,使算法在复杂场景中保持稳定的多目标优化性能。

应用价值方面,研究团队建立了航空制造特有的仿真测试平台,包含12类典型装配单元、8种标准作业流程和5级人机协作模式库。实测数据显示,在波音787机翼对接等复杂装配任务中,ISAC算法将平均装配周期缩短42%,人力投入降低35%,同时保持85%以上的装配一致性。这种性能优势源于算法对三个核心要素的协同优化:通过模式切换矩阵平衡重复性任务与创造性工作,利用动态优先级队列优化工序衔接,借助人机负荷预测模型实现任务分配的生理适应性调整。

方法论贡献体现在算法框架的模块化设计,包括可插拔的状态编码模块、约束满足的混合动作空间生成器、多目标奖励的动态权重分配器等。这种模块化架构使ISAC能够快速适配不同航空制造场景,例如通过修改约束矩阵参数即可切换适于A320窄体机与C919宽体机的装配优化模式。实验证明,算法在不同规模(100-500工序)、不同复杂度(标准/定制化装配)场景中的适应调整时间不超过15分钟。

研究还特别关注人机协作的生理适应性,开发基于生物力学模型的负荷预测算法。通过采集12名熟练装配工人的操作数据,建立包含手部肌肉活动、视觉负荷度、认知负荷指数的三维评价体系。实验表明,ISAC算法能将最大单工时负荷降低至安全阈值(<75%额定负荷)以下,同时保持装配精度在±0.05mm的航空级标准。这种基于人体工程学的优化机制,为解决制造业中常见的职业健康问题提供了新思路。

在工程实现层面,研究团队开发了工业级部署平台。该平台采用分布式强化学习架构,支持同时处理8条装配线的协同调度。硬件层面基于FPGA加速的深度学习处理器,实测显示在3000节点的超大规模调度中,推理速度达到2.3次/秒,较传统CPU方案提升17倍。软件系统具备自学习迭代功能,通过在线日志分析实现算法参数的动态优化,在三个月的连续运行测试中,系统性能提升曲线符合 hockey-face 特征,验证了算法的持续进化能力。

未来研究方向聚焦于三个维度:1)数字孪生技术的深度融合,构建虚实联动的实时优化系统;2)人机协作的伦理安全框架设计,包括任务冲突预警机制和应急接管协议;3)多目标优化的元学习扩展,探索跨机型、跨项目的调度策略迁移学习。研究团队已与三大航空制造商达成合作意向,计划在2025年完成首条智能移动装配线的现场验证。

该研究在方法论层面实现了三个重要跨越:首次将航空制造特有的工序耦合约束纳入强化学习框架,突破了传统调度算法在复杂动态场景中的性能瓶颈;创新性地将人体工程学参数量化为可计算的优化目标,填补了智能制造领域人机协同评估的理论空白;构建了工业级部署的强化学习基础设施,解决了算法从实验室到产线的工程化难题。这些突破为智能航空制造提供了从基础理论到工程实践的完整解决方案,标志着我国在该领域研究达到国际领先水平。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号