《Current Opinion in Behavioral Sciences》:The basal ganglia as a policy-based controller
编辑推荐:
成功完成动作选择与执行需要在连续且复杂的运动参数及情境范围内实现精细控制。行为决策极少是简单的二元选择。尽管在还原论实验条件下,对离散动作进行索引与选择是一种具有吸引力的模型,但生物体需要追踪的海量状态-动作值使得这种生物层面的“记账”难以为继。本文阐述了大脑
成功完成动作选择与执行需要在连续且复杂的运动参数及情境范围内实现精细控制。行为决策极少是简单的二元选择。尽管在还原论实验条件下,对离散动作进行索引与选择是一种具有吸引力的模型,但生物体需要追踪的海量状态-动作值使得这种生物层面的“记账”难以为继。本文阐述了大脑在选择并优化与多样环境交互方式时必须解决的核心问题,随后回顾了多项行为与生理学研究,提出应重新评估大脑——尤其是基底神经节(basal ganglia, BG)——解决这些问题的方式。当前神经科学、心理学与经济学领域多聚焦于离散选择研究,此类研究通常将可选情境与动作限制在简单范围内,并以基于价值的学习(value-based learning)为核心框架:通过经验估计每个选项的价值(如预期结果、奖赏概率等),决策时查询动作价值表或动作通道,选择价值最高的动作。这种表格法计算简单、实验可操作性强且具有分析吸引力,但实验室外的现实场景极少能达到这种还原程度。从线虫到人类的多物种行为学研究表明,动作选择的范围远比现代研究基础的还原论实验与模型更为复杂。即使是简单动物也能可靠地从数十种已建立的行动“音节”中进行选择,而非仅针对特定外部状态做出“行动”或“放弃”的二元反应;果蝇与猴子均能进行探索、理毛、多种方式的运动,并将这些行为组合成随时间演化的结构化动作序列。考虑到动物所处的自然环境,大脑需要表征的动作数量会迅速变得难以处理,而环境本身的复杂性进一步挑战了查表法的可行性:要确定一个动作是否被选入,必须为其可能出现的每个环境“状态”建立价值,即使是在仅有5个状态、每个状态仅含3种情境的简单环境中,单个动作的价值表也已包含3?=243个值,且生物体需要对每个状态-动作组合进行重复采样才能获得可靠估计——尽管这种显式价值估计在受限场景或机器学习的数百万次迭代中十分有效,但生物智能体极少能获得这样的机会。除创建、访问和更新海量动作-价值配对的挑战外,动物行为的固有丰富性也暴露了传统基于价值学习的深层局限:即使是能熟练掌握电脑游戏的前沿深度Q网络(Deep Q Network, DQN)算法,也只能处理离散低维动作空间,而生物体的多数动作存在于连续域中——例如伸手取物并非“伸向左边按钮”的离散选择,而是来自可能伸手方式的分布,每种方式都有自身的速度、幅度、“向左”方向与手部朝向,这些数值占据连续参数空间,且在“向左伸手”动作的持续过程中可能发生变化。试图通过将连续分布离散化为有限动作来解决这一问题会遇到显著困难:以最大伸手速度的平滑近似高斯分布为例,细粒度离散化会将动作空间划分为大量动作,虽初期能产生平滑分布,但动作价值的更新无法轻易引发行为改变——既因为细分越多重复同一选择的概率越低,也因为分布的众数不会改变;反之,粗粒度离散化(即使部分重叠)会产生块状多峰分布,两种情况下,学习后的伸手速度分布都会逐渐变得不规则且不连续,这与跨物种数十年的运动学观察结果不符。替代方案是用策略函数(policy functions)表征行为——这是一种能捕捉完整动作分布的紧凑数学描述,可将大或连续动作空间的价值分布简化为仅由少数参数支配的函数,即控制行为的参数或策略。无论是学习投球、运动所需动作序列,还是逃离桑代克迷箱,这种方法都直接优化参数化策略,无需存储特定的个体动作-结果关联,仅通过调整描述这些空间的函数的少数参数,就能实现对整体行为表现的细微调整。以伸手动作为例,学习作用于支配整个速度分布的参数。此外,动作模式本身可根据其在连续或半连续行为空间内的相似性(逆距离)组织,智能体无需学习每个离散状态-动作对的价值,只需调整支配行为输出范围的函数的少数项,即可快速塑造行为。策略函数的使用支持选项间的泛化,包括对从未经历过的动作价值的推断,其参数直接决定动作空间内的选择概率,简化了学习与执行过程。例如,基于策略的强化学习已让机器人能够叠衣服、抛接球,甚至操控空中无人机——这些任务均处于丰富的动作场景中,且需因状态变化(如布料弯曲、气流变化的不可预测性)快速精准更新。考虑到动物的经验稀缺性、行为库的多样性与计算资源有限性,这种功能近似的行为控制极具吸引力。有效的控制器会利用对手加工(opponent processes):参数值可被推向有益结果、拉离代价性结果,这种推拉作用能提高准确性与稳定性、减少超调,使数值保持在精确平衡态。脊椎动物大脑的解剖、生理与行为证据均表明,基底神经节的对手通路正发挥着基于策略的控制作用。
基底神经节作为基于策略的控制器:解剖基础
若要验证基于策略的控制是否为可行的生物学机制,首先需明确其是否存在生物学基础。对手控制在大脑的演化早期就已存在,这种结构能以极少量神经元表征多个连续表现分布。在脊椎动物中,长期被纳入强化学习研究的脑区基底神经节,为这一功能提供了坚实的解剖与功能证据。尤其在哺乳动物中,直接通路(direct pathway)与间接通路(indirect pathway)构成对手系统:直接通路神经元抑制基底神经节的输出核团,间接通路神经元则通过中间连接去抑制输出核团,且两条通路在基底神经节的输入核团纹状体(striatum)内相互抑制。每个纹状神经元都接收来自皮层与丘脑的大量感觉、认知与运动信息,尽管这些输入存在部分拓扑分离,但其投射呈弥散性,单个皮层神经元可与纹状体全体积的神经元形成突触。纹状神经元还受到释放神经调质(包括多巴胺(dopamine)与乙酰胆碱(acetylcholine))的细胞的密集支配,这些神经调质的释放是对动作结果、世界状态变化与内部动机的反应,并能诱导近期活跃神经元的突触可塑性。输入的异质性与宽带、活动依赖性可塑性信号的存在,为关联动物经验历史并优化广泛行为动力学提供了理想途径。构成策略函数的各类参数因此可被表征在不同皮质-纹状体突触的权重中,通过作用于近期活跃突触强度的可塑性机制,可轻松调整这些参数的权重。尽管计算研究多关注皮层反馈环路,但需注意,在哺乳类系统中,经丘脑的反馈投射仅占基底神经节输出的不足30%,灵长类苍白球投射中仅有不到15%指向运动皮层。这类反馈环路适配于采用表格法进行动作选择的模型——即认为基底神经节活动会诱发或抑制皮层的运动指令。实际上,基底神经节的投射以前馈为主,靶向脑干的运动指令中枢,并与同样支配纹状体的皮层运动神经元汇聚。以策略为核心的模型非常适配这种前馈架构:基底神经节的作用是塑造汇聚的下行指令。两类输出可能都具有价值并发挥互补作用,依赖反馈驱动皮层学习的行动者-评论家(actor-critic)模型仍基于策略学习,但需考虑显著的解剖偏向与计算局限性。
生理证据
现有哪些证据支持这一脑架构作为基于策略的控制器?首先,阻断基底神经节的输出不会影响“选择执行哪个动作”——而这本应是表格动作选择系统的必需功能(该系统需要访问动作价值以驱动选择)。相反,这类损伤会损害表现参数(如动作幅度、动机与其他缩放参数)的塑造。纹状体损伤也会降低动作活力(vigor);相比之下,上游运动皮层区域的类似损伤会导致动作选择与切换能力的缺陷。电生理数据进一步提供了支持:纹状神经元表现出两个具启示性的基本特征——单调表征与并发激活。如前所述,基于动作价值模型解释运动学会面临一个问题:必须为不同速度范围(如“最慢”“慢”“快”“更快”)分别建立表征。与此一致的是,全脑范围内的速度、方向等运动学参数均以连续单调函数编码,这一现象在基底神经节中尤为显著。即使研究者特意寻找非单调运动学调谐的证据,也未发现相关结果。多数基底神经节功能模型基于表格动作价值框架,将直接通路与间接通路视为“去”(go)与“不去”(no-go)通路,分别促进最高价值动作、抑制不期望动作。但目前已明确证实两条通路的神经元会并发激活,且在所谓“不去”的间接通路中,表征已执行动作的神经元活动往往超过“去”的直接通路——这种并发激活与多数动作价值模型的预测完全相反。尽管已有研究尝试将这些结果纳入动作价值框架,但这些尝试几乎都局限于二元动作库,且策略控制能提供更简洁的解释:最优控制需要同时并发激活正负信号,以微调动作参数。
神经行为证据
基底神经节通路的特异性因果操纵或许是最有力的证据,证明基底神经节确实在调控策略参数。当以准生理学方式改变通路活动时,产生的行为变化始终与策略调制一致。例如Kravitz等人(2020)提高了“不去”间接通路神经元的兴奋性,按照动作价值模型,这种操作应大幅降低运动输出,但实际结果是运动输出增加,这是普遍降低偏好策略或厌恶的表现。后续研究进一步推进了这一发现:当“不去”通路神经元与行为事件(如运动停止)同步刺激时,小鼠反而更倾向于运动。这种策略特异性行为调制在两条通路中均存在:刺激对手“去”直接通路时,小鼠会保持静止,且未来更可能停止运动;在另一组研究中,当受试者在任务中或非任务中接受直接通路刺激时,会维持所处状态不变,而间接通路刺激则会增加终止当前行为模式的概率。在运动学领域,若刺激根据行为策略触发(例如由左转方向或更快伸手速度触发),无论运动学效价如何,未来的该特定参数都会被推向或拉离目标值,且整个执行速度或方向的分布会发生偏移,仿佛受单一控制参数支配,而非仅局限于引发刺激的那些左转或更快动作发生局部变化。这种效应在基底神经节的中间核团底丘脑核(subthalamic nucleus)中也观察到。最后,动作的价值本身也可能受基于策略的控制支配:面对简单的二选一动作选择时,刺激任一通路的纹状体都不会诱发动作,而是使价值分布向某一选项偏移或远离,导致对该选项的过高或过低估价。
结论与下一步方向
大脑需要学习关联复杂的环境状态与多样的动作库。尽管表征与选择动作的离散表格法具有吸引力且实验更易操作,但无法适配生物有机体的现实需求。基于策略的控制为这些缺陷提供了有力解决方案,且得到日益增多的文献支持。Mink在其主张个体动作选择与抑制的开创性论文中提出了多项实证检验以验证竞争模型,本文讨论的部分实验正是这类检验的延伸,其结果一致指向策略参数的对手控制。我们认为,这种基于策略的控制很可能不仅限于运动学控制——这已是近30年前该领域的设想。结合累积的功能与生物学证据,我们主张重新评估流行的离散动作价值计算模型的适用性,并鼓励研究超越还原论、二元化的实验设计与分析,转向能理解并解释大脑在决策与行为中实现的复杂性与广度的方法。