基于多保真度贝叶斯优化的GRPO效率感知群体规模优化
《AI》:Efficiency-Aware Group Size Optimization for GRPO via Multi-Fidelity Bayesian Optimization
【字体:
大
中
小
】
时间:2026年06月24日
来源:AI 6.5
摘要
组相对策略优化(GRPO)通过消除Critic模型,简化了大型语言模型(LLMs)与视觉语言模型(VLMs)的协调过程。然而,其效率在很大程度上取决于组大小G。虽然较大的G值有助于提升奖励估算精度并稳定优势值,,它会大幅增加VRAM使用量并降低处理效率。在资源受限的环境中,固定G值为64这样的传统方法会带来严重瓶颈。本文提出了一种基于效率感知的优化框架,该框架运用多保真度贝叶斯优化和Hyperband(BOHB)技术,动态确定最佳组大小,。该方法采用多目标函数,在奖励精确度、方差以及硬件利用率之间取得平衡,并通过z-分数标准化进行处理。该框架通过逐步减半法快速评估低保真度的候选方案,与随机搜索相比,搜索成本可降低多达74%。在仅支持文本处理的LLM(Qwen2.5-7B/1.5B)和多模态VLM(Qwen2.5-VL-3B)上的测试表明,所发现的组大小相比基准值64可节省高达72.5%的VRAM,同时奖励精确度仍保持在5.8%以内。针对、、等超参数的敏感性分析也证明了该框架的稳定性。本研究并非将组大小视为单纯的工程经验法则,而是通过将统计估计稳定性与硬件约束之间的权衡纳入统一的优化框架,为资源高效的RLHF提供了具有理论依据的方法创新。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号