在前置特征学习中，基于资格性追踪（eligibility-trace）的抑制机制能够促进奖励后的探索行为

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Cognitive Neurodynamics》：Eligibility-trace–gated depression in predecessor feature learning enables post-reward exploration

【字体：大中小】 时间：2026年06月04日 来源：Cognitive Neurodynamics 3.9

编辑推荐：

　　摘要空间导航和探索需要灵活的学习机制，这些机制能够适应不断变化的环境需求。虽然多巴胺在奖励预测误差中的作用已经得到充分证实，但其他神经调节剂在强化学习中的计算功能仍不甚明了。在这里，我们研究了乙酰胆碱（ACh）的调节如何影响基于前驱特征（PF）的学习机制——这是一种将后继表征与资

摘要

空间导航和探索需要灵活的学习机制，这些机制能够适应不断变化的环境需求。虽然多巴胺在奖励预测误差中的作用已经得到充分证实，但其他神经调节剂在强化学习中的计算功能仍不甚明了。在这里，我们研究了乙酰胆碱（ACh）的调节如何影响基于前驱特征（PF）的学习机制——这是一种将后继表征与资格痕迹结合起来的计算框架，用于回顾性奖励分配。我们开发了一种基于ACh调节的PF算法（ACh-PF），通过资格痕迹的外积来实现突触抑制（\(\Delta \textbf{W}_{\textrm{ACh}} = -\eta _{\textrm{ACh}} \cdot \textbf{e}_{t} \otimes \textbf{e}_{t}\)），假设这种机制可以通过减弱最近经过的转换的奖励来促进探索行为。我们使用具有n个臂的辐射迷宫，比较了传统导航方式（任务在获得奖励时结束）和一种要求访问所有臂端点的奖励后探索标准。在传统模式下，所有代理都取得了接近最优的性能。而在奖励后探索标准下，基于PF的基线算法表现较差；而ACh-PF的性能对\(\eta _{\textrm{ACh}}\)表现出非单调依赖性：在较窄的中间范围内性能显著提升，但在更高的收益水平下性能下降，这符合一种“膝状”转变后出现的过度抑制现象。随着空间和动作空间复杂性的增加，有效窗口也随之缩小；较短的双臂迷宫（\(L=3\) – 6）在更宽的范围内支持接近上限的奖励，而较长的臂（\(L\ge 9\)）则需要更精细的调整，并且效率降低。在多臂迷宫中，只有在要求最低的条件（例如\(L=3\)）下，才能保持高效的探索行为；随着臂长和臂数的增加，探索效率会逐渐下降直至超时。这些结果将类胆碱能的突触抑制与灵活的探索行为联系起来，同时也揭示了在复杂环境中的扩展极限。

联系信箱：

粤ICP备09063491号

摘要

热点排行