奖励的幅度决定了强化学习的效率
《SCIENCE》:Reward magnitude determines reinforcement learning efficiency
【字体:
大
中
小
】
时间:2026年05月25日
来源:SCIENCE 45.8
编辑推荐:
编辑摘要
训练动物完成复杂任务通常是一个繁琐且逐步进行的过程。这是因为传统的行为学习协议侧重于最小化奖励次数以最大化试验次数。Gong等人研究了奖励大小如何影响小鼠的学习。非常大的奖励显著加快了学习速度,并导致纹状体中的多巴胺释放增加。与较小的奖励相比,动物学习得更快,收集
编辑摘要
训练动物完成复杂任务通常是一个繁琐且逐步进行的过程。这是因为传统的行为学习协议侧重于最小化奖励次数以最大化试验次数。Gong等人研究了奖励大小如何影响小鼠的学习。非常大的奖励显著加快了学习速度,并导致纹状体中的多巴胺释放增加。与较小的奖励相比,动物学习得更快,收集奖励的效率更高,更愿意持续参与任务,并且在多次试验中表现出进步。纹状体中的多巴胺反应与奖励大小成正比,而利用光遗传学技术延长多巴胺活性也再现了许多学习上的益处。这些结果对我们理解大奖励在学习和动机中的作用具有重要意义。——Peter Stern
结构化摘要
引言
在从人工智能(AI)到实验心理学等不同领域中,人们长期以来一直认为存在一个自由参数——学习率,它决定了个体学习效率的差异,并且相对独立于奖励的大小。这表明学习主要取决于经验的数量(奖励的次数)。然而,最近将多巴胺(DA)功能映射到强化学习算法的理论研究,结合关于多巴胺编码奖励的经典结果,表明学习率实际上可能取决于奖励的大小。这也提出了一个可能性,即我们可能选择了次优的奖励大小分布,从而减缓了复杂实验室任务中的训练速度,并低估了动物学习的效率。
研究理由
一系列有影响力的观察结果提出了一个假设,即多巴胺神经元活动实现了强化学习算法中的奖励预测误差部分。然而,最近的研究提出,多巴胺活动可能在学习过程中影响学习率。顾名思义,学习率决定了学习收敛到其渐近值的速度。经典的实验结果表明,多巴胺活动与奖励大小相关。这两点共同暗示了一个意想不到的假设:奖励大小可能决定了强化学习的效率。关于哪种奖励大小对任何实验动物来说是最优的,目前的数据非常有限。这一点在现代系统神经科学实验中常见的导航、运动技能和决策任务中尤为明显。尽管如此,整个领域基本上使用的奖励大小范围非常狭窄。所选择的奖励大小相对于小鼠的日常需求来说非常小(<1%)。因此,我们着手确定增加奖励大小是否以及为何能够提高动物学习的效率。
结果
将奖励大小相对于该领域使用的标准奖励大小增加一到两个数量级,显著提高了多种任务的学习效率。我们发现,在隐藏目标导航任务、基于努力的抓取-拉动运动技能任务和感觉运动决策任务中,小鼠所需的试验次数至少减少了一个数量级。总体而言,在所有这三个任务中,学习效率得到了提高,而最终训练表现的质量没有明显变化。在极端情况下,这些效果可能非常显著。例如,一些小鼠仅通过几次奖励体验就学会了隐藏目标导航任务,而使用标准奖励大小则需要数百次甚至数千次奖励。我们进一步表明,一旦认识到学习效率由三个关键因素决定:(i)学习率,(ii)从先前任务中吸收改进的能力,以及(iii)对任务的持续参与程度,这些效果就可以得到很好的解释。在我们的研究中,大奖励改善了这三个方面。大奖励使多巴胺神经元在奖励消耗期间的活动时间更长、更持久。我们测试了是否可以通过光遗传学介导的多巴胺持续激活来增强标准奖励大小下的学习效率。持续的光遗传学“增强”多巴胺奖励反应能够提高隐藏目标导航和基于努力的运动技能任务的学习效率。
多巴胺刺激通过提高学习率和减少注意力分散来提高学习效率,但未能增强对先前学习的吸收。最后,我们发现,虽然增加奖励大小总是能提高多巴胺活动所测量的学习效果,但并不总是能明显改善行为上的学习表现。例如,在经典条件反射范式中,大奖励的存在似乎会干扰预期行为。
结论
我们发现,比该领域使用的更大奖励大小确实可以提高小鼠在包括导航、运动技能和决策在内的多种复杂任务中的学习效率。个体间学习效率差异的最大来源之一是保持任务参与的能力。出乎意料的是,个体间学习率的差异似乎要小得多。因此,大奖励可以显著减少个体间学习效率的差异。最后,中边缘系统多巴胺神经元活动根据多巴胺激活的大小和时间进程,可以对学习产生多种影响。
摘要
标准的动物学习研究通过最小化个体奖励大小来最大化强化行为的重复次数。我们研究了奖励大小如何影响初学小鼠在五种行为范式中的学习情况。特别是大奖励通过对学习过程内部和跨任务学习以及任务参与度的不同影响,显著提高了学习效率。腹侧纹状体中多巴胺释放的持续时间和大小与奖励大小成正比,而长时间的光遗传学增强多巴胺奖励反应也再现了大部分(但不是全部)大奖励带来的学习益处。这些发现表明,传统上对动物强化学习效率的评估被低估了,多巴胺对奖励的信号传递与绝对奖励大小成正比地影响了任务参与度。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号