帕累托最优估计与政策学习：平衡短期与长期结果

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Neural Networks》：Pareto-Optimal Estimation and Policy Learning for Balancing Short-term and Long-term Outcomes

【字体：大中小】 时间：2026年05月27日 来源：Neural Networks 6.3

编辑推荐：

　　王英荣|吴安鹏|李浩轩|刘伟明|李宝红|苗巧薇|熊若轩|吴飞|匡坤摘要在精准医疗和个性化推荐等高风险领域，优化治疗方案或政策需要在对即时收益和长期结果之间进行谨慎权衡。然而，这些目标往往存在内在的权衡——例如，过高的药物剂量可能会加速短期康复，但会导致严重的长期副作用。现有方法难

王英荣|吴安鹏|李浩轩|刘伟明|李宝红|苗巧薇|熊若轩|吴飞|匡坤

摘要

在精准医疗和个性化推荐等高风险领域，优化治疗方案或政策需要在对即时收益和长期结果之间进行谨慎权衡。然而，这些目标往往存在内在的权衡——例如，过高的药物剂量可能会加速短期康复，但会导致严重的长期副作用。现有方法难以解决这类困境，主要面临两个挑战：缺乏明确机制来协调相互冲突的结果，以及联合优化过程中固有的梯度干扰。为了解决这些问题，我们提出了一个帕累托效率框架，包括帕累托最优估计（POE）和帕累托最优策略学习（POPL）。具体而言，POE 使用连续的帕累托优化模块来明确解决表示学习与多结果预测之间的冲突。基于这些反事实估计，POPL 在连续的剂量空间中探索治疗-反应曲线，并确定帕累托前沿，从而实现主动和平衡的决策制定。在合成基准数据和真实世界数据集上的广泛实验表明，我们的方法在反事实预测和策略学习方面始终表现出更优的性能。

联系信箱：

粤ICP备09063491号

摘要

热点排行