多目标强化学习中基于偏好驱动的进化策略优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Access》：Preference-Driven Evolutionary Policy Optimization in Multi-Objective Reinforcement Learning

【字体：大中小】 时间：2026年06月12日 来源：IEEE Access 3.6

编辑推荐：

　　摘要：在现实世界的多目标强化学习场景中，决策者通常会关注那些能够反映复杂动态环境中不断变化的偏好的策略子集。然而，现有方法难以在高效的偏好调整与充分的全球探索之间取得平衡，且往往缺乏处理非静态环境下偏好变化的有效机制。我们提出了基于偏好驱动的进化策略优化方法（PD-Evo），该框

摘要：

在现实世界的多目标强化学习场景中，决策者通常会关注那些能够反映复杂动态环境中不断变化的偏好的策略子集。然而，现有方法难以在高效的偏好调整与充分的全球探索之间取得平衡，且往往缺乏处理非静态环境下偏好变化的有效机制。我们提出了基于偏好驱动的进化策略优化方法（PD-Evo），该框架将进化优化与基于偏好的策略学习相结合。PD-Evo在策略优化过程中引入了进化算子，从而实现适应性探索，同时引导策略群体向与偏好一致的客观空间区域移动。通过整合决策者的连续反馈，PD-Evo能够在不重新训练的情况下实现实时偏好调整，同时保持收敛稳定性和多样性。在静态和动态测试基准上的实验结果表明，相较于现有方法，PD-Evo在非静态环境下的偏好对齐度和适应性方面表现更为优异。

联系信箱：

粤ICP备09063491号

摘要：

热点排行