基于多保真度贝叶斯优化的GRPO效率感知群体规模优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《AI》：Efficiency-Aware Group Size Optimization for GRPO via Multi-Fidelity Bayesian Optimization

【字体：大中小】 时间：2026年06月24日 来源：AI 6.5

编辑推荐：

　　摘要

摘要

组相对策略优化（GRPO）通过消除Critic模型，简化了大型语言模型（LLMs）与视觉语言模型（VLMs）的协调过程。然而，其效率在很大程度上取决于组大小G。虽然较大的G值有助于提升奖励估算精度并稳定优势值，

?? ??

，它会大幅增加VRAM使用量并降低处理效率。在资源受限的环境中，固定G值为64这样的传统方法会带来严重瓶颈。本文提出了一种基于效率感知的优化框架，该框架运用多保真度贝叶斯优化和Hyperband（BOHB）技术，动态确定最佳组大小，

?? *

。该方法采用多目标函数，在奖励精确度、

?? ??

方差以及硬件利用率之间取得平衡，并通过z-分数标准化进行处理。该框架通过逐步减半法快速评估低保真度的候选方案，与随机搜索相比，搜索成本可降低多达74%。在仅支持文本处理的LLM（Qwen2.5-7B/1.5B）和多模态VLM（Qwen2.5-VL-3B）上的测试表明，所发现的组大小相比基准值64可节省高达72.5%的VRAM，同时奖励精确度仍保持在5.8%以内。针对

、

等超参数的敏感性分析也证明了该框架的稳定性。本研究并非将组大小视为单纯的工程经验法则，而是通过将统计估计稳定性与硬件约束之间的权衡纳入统一的优化框架，为资源高效的RLHF提供了具有理论依据的方法创新。

联系信箱：

粤ICP备09063491号

摘要

热点排行