多目标强化学习中基于偏好驱动的进化策略优化

《IEEE Access》:Preference-Driven Evolutionary Policy Optimization in Multi-Objective Reinforcement Learning

【字体: 时间:2026年06月12日 来源:IEEE Access 3.6

编辑推荐:

  摘要:在现实世界的多目标强化学习场景中,决策者通常会关注那些能够反映复杂动态环境中不断变化的偏好的策略子集。然而,现有方法难以在高效的偏好调整与充分的全球探索之间取得平衡,且往往缺乏处理非静态环境下偏好变化的有效机制。我们提出了基于偏好驱动的进化策略优化方法(PD-Evo),该框

  

摘要:

在现实世界的多目标强化学习场景中,决策者通常会关注那些能够反映复杂动态环境中不断变化的偏好的策略子集。然而,现有方法难以在高效的偏好调整与充分的全球探索之间取得平衡,且往往缺乏处理非静态环境下偏好变化的有效机制。我们提出了基于偏好驱动的进化策略优化方法(PD-Evo),该框架将进化优化与基于偏好的策略学习相结合。PD-Evo在策略优化过程中引入了进化算子,从而实现适应性探索,同时引导策略群体向与偏好一致的客观空间区域移动。通过整合决策者的连续反馈,PD-Evo能够在不重新训练的情况下实现实时偏好调整,同时保持收敛稳定性和多样性。在静态和动态测试基准上的实验结果表明,相较于现有方法,PD-Evo在非静态环境下的偏好对齐度和适应性方面表现更为优异。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号