PPO-GPR：一种面向主动强化学习的近端策略优化定制工具

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACS Engineering Au》：PPO-GPR: A Custom Proximal Policy Optimization Tool for Active Reinforcement Learning

【字体：大中小】 时间：2026年04月08日 来源：ACS Engineering Au 5.1

编辑推荐：

　　在数据获取成本高昂且耗时的领域，如材料科学，高效的数据选择至关重要。本研究提出了一种新颖的主动学习框架，将近端策略优化（Proximal Policy Optimization, PPO）与高斯过程回归（Gaussian Process Regression,

在数据获取成本高昂且耗时的领域，如材料科学，高效的数据选择至关重要。本研究提出了一种新颖的主动学习框架，将近端策略优化（Proximal Policy Optimization, PPO）与高斯过程回归（Gaussian Process Regression, GPR）相结合，以策略性地选择信息丰富的数据点，从而增强预测建模能力。该框架利用PPO固有的稳定性和样本效率——通过裁剪替代目标实现——通过一个为GPR量身定制的自定义Gymnasium环境引导数据采集。在此环境中，PPO智能体根据数据点提升GPR性能（以R2分数衡量）的潜力动态选择数据点，同时通过动作掩码机制防止冗余。研究人员将该方法论应用于预测甲烷（CH4）在金属有机框架（Metal–Organic Frameworks, MOFs）中对更高碳氢化合物的选择性，重点关注CuBTC和IRMOF-1。该框架在三元和四元气体混合物中进行了评估，通过R2、平均绝对误差（Mean Absolute Error, MAE）和均方根误差（Root Mean Squared Error, RMSE）等指标评估GPR性能。在三元和四元碳氢化合物混合物的CuBTC和IRMOF-1中，PPO引导的数据采集相对于完整的巨正则蒙特卡洛（Grand Canonical Monte Carlo, GCMC）网格实现了77–86%的数据节省，通常仅查询候选池的约14–23%，同时裁剪更新的PPO策略通过在选择性变化最快的压力–温度–组成区域集中选择而稳定收敛。这项工作展示了将先进强化学习技术与回归模型相结合以加速材料发现和优化气体分离过程的潜力。

PPO-GPR：面向MOF气体分离的高效主动学习框架解读

在材料科学领域，尤其是金属有机框架（Metal–Organic Frameworks, MOFs）的气体吸附与分离研究中，高精度模拟数据的获取往往依赖巨正则蒙特卡洛（Grand Canonical Monte Carlo, GCMC）计算，其成本随压力、温度及混合物组成的组合空间呈指数级增长。尽管高通量计算筛选已推动数千种MOF结构的虚拟评估，但全覆盖操作条件仍面临巨大计算瓶颈。主动学习（Active Learning, AL）通过自适应选择高信息增益样本，结合高斯过程回归（Gaussian Process Regression, GPR）的不确定性估计能力，为解决这一问题提供了可能，但传统方法在复杂多组分体系中的样本选择效率仍有待提升。为此，研究人员开发了PPO-GPR框架，将强化学习中的近端策略优化（Proximal Policy Optimization, PPO）与GPR结合，以实现策略性的高效数据采样。该研究发表于《ACS Engineering Au》的“化学工程中的人工智能与机器学习：突破与应用”特刊。

研究采用的关键技术方法包括：构建符合Gymnasium API的自定义环境GPR_Env，状态包含数据可用性向量、GPR当前R²分数及历史选择记录，动作空间为离散数据点索引并通过动作掩码避免重复选择；采用Stable-Baselines3的MaskablePPO算法，保留PPO的裁剪替代目标、广义优势估计（Generalized Advantage Estimation, GAE）及熵正则化机制；GPR模型采用有理二次核（Rational Quadratic Kernel, RQ）与马顿核（Matern Kernel）的复合核函数，以捕捉多尺度非线性关系；通过GCMC模拟生成CuBTC与IRMOF-1在三元（CH₄/C₂H₆/C₃H₈）和四元（CH₄/C₂H₆/C₃H₈/C₄H₁₀）混合物下的吸附数据集，初始训练集仅占总量2.3%，其余作为候选池。

研究结果

三元混合物性能：在CuBTC和IRMOF-1的三元体系中，GPR测试集R²分别达0.980和0.983，未标记数据R²分别为0.967和0.840。误差热图显示，模型在低压（<10 bar）、高温（>320 K）及乙烷摩尔分数较高（0.40–0.60）的区域表现最优，而在低温（200–280 K）、中压（15–35 bar）及丙烷富集区误差较高。PPO智能体的采样集中于低压区间，同时在温度与组成维度覆盖全范围，有效针对高误差区域补充数据。

四元混合物性能：引入正丁烷（C₄H₁₀）后，CuBTC测试集R²微升至0.981，IRMOF-1达0.980；未标记数据R²分别为0.956和0.912。四元体系下，PPO策略在保持低压采样主导的同时，扩展了中压区间的覆盖范围，并对丙烷与丁烷的中等摩尔分数（0.20–0.40）表现出偏好，以适应组成空间的稀疏性。误差热点仍集中在低温、中压及重质烷烃富集区，但整体模型精度保持稳定。

数据效率与验证：PPO-GPR在所有案例中实现77–86%的数据节省，仅需查询候选池的14–23%。与完整GCMC数据集相比，模型在选择性等温线上的预测与真实值高度吻合，仅在200 K低压起始段存在轻微偏差。计算耗时方面，PPO优化仅需约5小时（16 CPU核心），而生成完整数据集需48–53天（单CPU节点逐点运行）。

讨论与结论

研究结果表明，PPO-GPR框架通过强化学习驱动的策略性采样，成功解决了传统主动学习中样本选择效率低的问题。其核心优势在于：PPO的裁剪目标确保了策略更新的稳定性，动作掩码避免了冗余查询，而复合核函数有效捕捉了MOF吸附选择性的复杂非线性特征。该框架不仅在三元与四元混合物中均保持了优异的预测精度，更重要的是将数据需求降低至传统方法的五分之一以下，显著降低了计算成本。这一成果为材料科学中的高通量筛选提供了新的范式，证明强化学习与回归模型的结合可加速气体分离材料的发现与优化，对能源领域的可持续技术开发具有重要意义。

联系信箱：

粤ICP备09063491号

热点排行