
-
生物通官微
陪你抓住生命科技
跳动的脉搏
在前置特征学习中,基于资格性追踪(eligibility-trace)的抑制机制能够促进奖励后的探索行为
《Cognitive Neurodynamics》:Eligibility-trace–gated depression in predecessor feature learning enables post-reward exploration
【字体: 大 中 小 】 时间:2026年06月04日 来源:Cognitive Neurodynamics 3.9
编辑推荐:
摘要空间导航和探索需要灵活的学习机制,这些机制能够适应不断变化的环境需求。虽然多巴胺在奖励预测误差中的作用已经得到充分证实,但其他神经调节剂在强化学习中的计算功能仍不甚明了。在这里,我们研究了乙酰胆碱(ACh)的调节如何影响基于前驱特征(PF)的学习机制——这是一种将后继表征与资
空间导航和探索需要灵活的学习机制,这些机制能够适应不断变化的环境需求。虽然多巴胺在奖励预测误差中的作用已经得到充分证实,但其他神经调节剂在强化学习中的计算功能仍不甚明了。在这里,我们研究了乙酰胆碱(ACh)的调节如何影响基于前驱特征(PF)的学习机制——这是一种将后继表征与资格痕迹结合起来的计算框架,用于回顾性奖励分配。我们开发了一种基于ACh调节的PF算法(ACh-PF),通过资格痕迹的外积来实现突触抑制(\(\Delta \textbf{W}_{\textrm{ACh}} = -\eta _{\textrm{ACh}} \cdot \textbf{e}_{t} \otimes \textbf{e}_{t}\)),假设这种机制可以通过减弱最近经过的转换的奖励来促进探索行为。我们使用具有n个臂的辐射迷宫,比较了传统导航方式(任务在获得奖励时结束)和一种要求访问所有臂端点的奖励后探索标准。在传统模式下,所有代理都取得了接近最优的性能。而在奖励后探索标准下,基于PF的基线算法表现较差;而ACh-PF的性能对\(\eta _{\textrm{ACh}}\)表现出非单调依赖性:在较窄的中间范围内性能显著提升,但在更高的收益水平下性能下降,这符合一种“膝状”转变后出现的过度抑制现象。随着空间和动作空间复杂性的增加,有效窗口也随之缩小;较短的双臂迷宫(\(L=3\) – 6)在更宽的范围内支持接近上限的奖励,而较长的臂(\(L\ge 9\))则需要更精细的调整,并且效率降低。在多臂迷宫中,只有在要求最低的条件(例如\(L=3\))下,才能保持高效的探索行为;随着臂长和臂数的增加,探索效率会逐渐下降直至超时。这些结果将类胆碱能的突触抑制与灵活的探索行为联系起来,同时也揭示了在复杂环境中的扩展极限。
空间导航和探索需要灵活的学习机制,这些机制能够适应不断变化的环境需求。虽然多巴胺在奖励预测误差中的作用已经得到充分证实,但其他神经调节剂在强化学习中的计算功能仍不甚明了。在这里,我们研究了乙酰胆碱(ACh)的调节如何影响基于前驱特征(PF)的学习机制——这是一种将后继表征与资格痕迹结合起来的计算框架,用于回顾性奖励分配。我们开发了一种基于ACh调节的PF算法(ACh-PF),通过资格痕迹的外积来实现突触抑制(\(\Delta \textbf{W}_{\textrm{ACh}} = -\eta _{\textrm{ACh}} \cdot \textbf{e}_{t} \otimes \textbf{e}_{t}\)),假设这种机制可以通过减弱最近经过的转换的奖励来促进探索行为。我们使用具有n个臂的辐射迷宫,比较了传统导航方式(任务在获得奖励时结束)和一种要求访问所有臂端点的奖励后探索标准。在传统模式下,所有代理都取得了接近最优的性能。而在奖励后探索标准下,基于PF的基线算法表现较差;而ACh-PF的性能对\(\eta _{\textrm{ACh}}\)表现出非单调依赖性:在较窄的中间范围内性能显著提升,但在更高的收益水平下性能下降,这符合一种“膝状”转变后出现的过度抑制现象。随着空间和动作空间复杂性的增加,有效窗口也随之缩小;较短的双臂迷宫(\(L=3\) – 6)在更宽的范围内支持接近上限的奖励,而较长的臂(\(L\ge 9\))则需要更精细的调整,并且效率降低。在多臂迷宫中,只有在要求最低的条件(例如\(L=3\))下,才能保持高效的探索行为;随着臂长和臂数的增加,探索效率会逐渐下降直至超时。这些结果将类胆碱能的突触抑制与灵活的探索行为联系起来,同时也揭示了在复杂环境中的扩展极限。