元认知效率在基于价值的学习性决策中的作用

《PLOS Computational Biology》：Metacognitive efficiency in learned value-based choice

【字体：大中小】 时间：2026年04月02日 来源：PLOS Computational Biology 3.6

编辑推荐：

　　摘要元认知，即评估我们自身决策质量的能力，是一种关键的高级信息处理形式。因此，元认知效率是衡量认知能力的重要指标。当决策过程简单时，元认知判断也相对直接；然而，评估元认知效率需要根据任务执行的质量进行标准化处理。这在感知决策中常用的效率测量方法（如M比率）中很常见。然而，在

　　摘要
元认知，即评估我们自身决策质量的能力，是一种关键的高级信息处理形式。因此，元认知效率是衡量认知能力的重要指标。当决策过程简单时，元认知判断也相对直接；然而，评估元认知效率需要根据任务执行的质量进行标准化处理。这在感知决策中常用的效率测量方法（如M比率）中很常见。然而，在强化学习问题中，这种标准化较为困难，因为任务难度会动态变化。因此，我们重新利用了M比率背后的核心思想，通过置信度判断来构建一个概念性的决策者（我们称之为“后向模型”），根据其虚拟决策的质量来评估元认知敏感性，并通过比较原始决策任务中的虚拟质量和模型预测的实际质量来量化元认知效率。我们使用模拟数据和实证数据表明，我们的元认知敏感性测量方法（即后向性能）与其他方法（如二次评分）具有可比的特性，并且我们的效率测量方法（MetaRL.Ratio）与实证表现无关，并且在不同任务难度下保持稳定。我们认为MetaRL.Ratio是评估基于价值的学习/决策中元认知效率的一个有前景的工具。

作者总结
当我们根据经验做出选择时，通常会判断自己对选择的信心程度。这些所谓的元认知判断越准确，我们就越能够有效地评估自己的决策。元认知效率在认知的许多方面都起着重要作用，并且与疾病有关。在诸如在图片中识别物体等简单任务中，已经开发出了许多测量元认知效率的方法。然而，当任务难度以不完全已知的方式波动时（例如人们在试错中学习时），这些方法就会遇到困难。我们引入了一种新的方法来研究这种动态环境下的元认知效率。我们比较了两个能够解决基础任务的模型的合成性能：一个前向模型仅匹配参与者的实际选择，另一个后向模型仅匹配伴随这些选择的置信度判断。这两种性能之间的比率（MetaRL.Ratio）是一种即使在任务难度变化时也能有效工作的元认知效率测量方法。在一个奖励值随时间变化的类似游戏的任务中，MetaRL.Ratio始终能够准确测量元认知效率，不受整体表现或置信度水平的影响。我们的测量方法有助于扩展元认知评估的范围。

引言
人类利用经验在变化的环境中做出基于价值的良好决策。除了他们的选择之外，他们还会发展并表达出对这些选择是否正确或有益的信心程度[1,2]。这种高级认知形式是最常见的元认知实例，也是计算科学、心理学和神经生物学研究的广泛主题[3,4]。尽管已有大量研究量化了感知决策中的元认知能力[5–11]，但尚未开发出适用于强化学习任务的适当框架来估计元认知能力。一般来说，元认知由三个关键量来表征：偏差、敏感性和效率[12]。偏差与个体报告置信度的平均水平有关，许多个体要么过于自信要么过于不自信。敏感性量化了置信度报告对决策正确性的区分能力。偏差和敏感性在一定程度上是可以区分的——因此，即使敏感性很高，个体也可能表现出过度自信；或者即使敏感性很低，也可能表现出过度不自信，前提是避免了天花板效应和地板效应。元认知效率量化了元认知能力。然而，评估效率很困难，因为敏感性的评估在很大程度上取决于我们的决策质量（例如，如果我们的选择总是正确的，那么从定义上来说就没有错误的决策可供区分）。因此，传统上通过根据置信度判断所基于的决策表现来标准化敏感性来评估效率。尽管已经提出了许多其他方法[11,13–16]，但在感知决策任务中评估元认知敏感性的流行方法是元-d′[12,17]。这种方法基于这样一个观察：选择模型（如信号检测理论[18]）可以从其基础决策变量自动生成置信度值，即决策正确的隐含概率[19]。用[20]的术语来说，这定义了一个一阶置信度模型，因为所有（且仅有的）用于报告置信度的信息都是基于一阶决策的。因此，可以找到一个选择模型的参数，特别是可区分性（称为meta-d′），使其置信度值的分布最符合参与者的实证置信度报告分布。我们将这个拟合模型称为“后向模型”。与其他元认知敏感性量化方法（如二次评分规则QSR[21–24]相比，meta-d′在形式上独立于任何元认知偏差（至少在信号检测理论模型准确的情况下[16]）。Meta-d′测量元认知敏感性，但如上所述，它也受到实证表现的影响，即参与者选择最佳选项的试验比例。例如，一个表现优异的受试者可能会对其通常正确的选择盲目地报告高置信度，从而在元认知上显得非常敏感。因此，基于meta-d′的元认知效率测量方法会根据原始感知选择的可区分性d′对其进行标准化处理（通过除法得到M比率[12]）。尽管M比率通常小于1，但如果参与者能够成功监控错误，它可能会超过这个值。不幸的是，M比率中的性能标准化只有在任务难度和表现恒定时才有效。当任务难度变化时，M比率容易膨胀[25]，这种情况在强化学习任务（如双臂老虎机）中非常普遍。在这些任务中，难度在开始时是未知的，如果臂的质量发生变化，难度也会持续变化。因此，目前我们缺乏一种在动态学习环境中测量元认知效率的有效方法。在这里，我们将M比率的概念扩展到了学习领域。图1展示了我们的框架。我们用强化学习模型替换了M比率中的信号检测理论模型。与meta-d′类似，我们将该模型的参数拟合到参与者的置信度报告（图1中的路径“9”到“12”），然后通过模拟（路径13和14）评估其在基础任务上的虚拟性能，即模型选择最佳选项的试验比例。后向性能是我们的元认知敏感性测量方法。与M比率类似，我们接着根据参与者实际选择的模型（图1中的路径“1”到“4”）的性能来标准化这种虚拟性能。最后，比较后向模型和前向模型的性能得到MetaRL.Ratio，从而量化元认知效率。重要的是，在将后向模型拟合到置信度时，我们使用了一种显式的置信度判断缩放方法（方程9）来调整参与者的元认知偏差。

下载：
PPT
PowerPoint幻灯片
PNG
较大图像
TIFF
原始图像

图1. 基于前向和后向模型的MetaRL.Ratio框架。
实证选择（非粗体黑色）使用RL模型（路径“1”、“2”和“3”）进行特征化，得到选择参数。模型对这些选择的置信度基于其对选择正确性的评估（“5”）。这些值通过线性重新缩放（“6”；使用下限LC和上限HC针对受试者）来匹配参与者的实证置信度报告，最小化平方误差（“7”、“8”），从而得到我们所说的前向置信度。在第二步比较中，我们还通过将实证置信度评分拟合到另一个RL模型对实证选择的类似缩放的置信度来估计选择参数（路径“9”到“12”）。最后，在同一任务的新实例上模拟前向和后向模型的行为（路径“1”、“13”），得到每个模型选择最佳选项的试验比例的估计值，我们将其称为前向性能和后向性能（“4”、“14”）。后向性能同时考虑了实证选择和置信度的影响，作为元认知敏感性的测量方法。为了确保有意义的比较，我们将这个测量值除以前向性能，得到称为MetaRL.Ratio的元认知效率测量方法。

https://doi.org/10.1371/journal.pcbi.1014108.g001

我们将这一过程应用于从在具有逆转机制的双臂老虎机任务中做出选择的受试者那里获得的数据。我们使用一个简单的RL算法来表征前向和后向模型。我们展示了后向性能对置信度评分噪声水平的敏感性，并且如预期那样，与QSR有适当的相关性。同样，MetaRL.Ratio与实证表现或选择参数（如学习率或逆温度）没有显著相关性，这些参数是通过拟合前向模型确定的。此外，MetaRL.Ratio也不受任务难度的影响，并且由于我们将模型的置信度评分与实证置信度匹配的方法，它对置信度偏差（以实证平均置信度的形式）的依赖性较小[26]。这些结果有助于确立MetaRL.Ratio作为第一个可以在学习领域良好运作的基于模型的元认知效率测量方法。

结果
我们的元认知效率测量方法MetaRL.Ratio依赖于将一个前向RL模型的参数拟合到受试者的选择上；另一个后向RL模型的参数拟合到受试者的置信度评分上（假设这些评分是模型选择概率的缩放版本）；然后比较这两个模型在新任务实现上的选择性能。我们首先描述了用于说明MetaRL.Ratio组成部分的实验，然后展示了拟合前向和后向模型的结果，从而研究了MetaRL.Ratio作为元认知效率测量方法的特性。最后，我们考察了不同任务条件下的元认知效率和偏差。

实验
60名参与者（排除后剩余54名；见方法部分）在两个老虎机之间进行选择，他们在1-5的范围内报告对选择的信心，并观察与所选老虎机相关的奖励（图2）。老虎机的奖励来自正态分布，平均值分别为40和60，低方差条件下的方差为8，高方差条件下的方差为16（在参与者之间进行，但间隔3天）。随后还有一个涉及中等方差条件的测试阶段，这里不予分析。参与者知道两个选项的平均奖励会在每18-22次试验后以不可预测的方式逆转，他们在每个任务条件下进行了400次试验。

下载：
PPT
PowerPoint幻灯片
PNG
较大图像
TIFF
原始图像

图2. 双结果逆转学习任务。
(A) 参与者在两个由LLM（OpenAI ChatGPT，模型o4-mini；见OpenAI (2025)）生成的老虎机之间进行选择，并在收到结果反馈之前报告他们对这些选择的信心（在连续尺度上）。
(B) 老虎机根据两个正态分布分发奖励，平均值分别为40和60，这两个分布每次试验交替出现。在低方差条件下，两个选项的方差设为8；在高方差条件下，方差设为16。每个参与者以平衡的顺序完成两种条件，间隔时间为几天。

https://doi.org/10.1371/journal.pcbi.1014108.g002

选择模型
为了提高可解释性，我们的主要分析对前向和后向模型都使用了非常简单的强化学习算法[27]。这为每个选项保持了独立的值，并根据学习率参数和预测误差的乘积（方程2；材料与方法）来更新这些值，然后基于具有逆温度参数的softmax随机选择选项（方程3；材料与方法）。这个参数平衡了利用和无方向探索。我们还包括了下限（）和上限（），用于将前向（‘F’）和后向（‘B’）模型选择选项的概率映射到报告的置信度上，因为个体可能会以不同的方式使用这些尺度（见方程5；9；材料与方法）。在S1文本中，我们展示了可以从模拟的选择和置信度数据中恢复两个模型的参数（S1文本中的图A；B）（从后向模型中恢复得更准确，因为置信度值比二元选择提供更多信息），并且将后向模型拟合到模拟的置信度判断的噪声版本上会导致后向性能变差（S1文本中的图C）。除非另有说明，主论文中的所有结果都指的是低方差条件。高方差条件的结果在S2文本的图N-S中提供。前向模型和后向模型的比较。我们将前向模型拟合到每个受试者的选择上，确定学习率和逆温度的最大似然值。然后我们从得到的前向模型中模拟了相同基础任务上的新选择。其性能，即模型选择最佳选项的试验比例，显著低于实证选择（即参与者观察到的选择）（M = .76 对比 .86；Wilcoxon检验：W = 7，p = 2.475e-10），这是预期的，因为我们使用了最简单的RL模型以便于解释（见S1文本中的图D到F，了解来自更复杂RL算法的类似元认知结果，以及S1文本中的图G到K，了解基于模型的算法及其与无模型RL的混合结果）。我们还拟合了较低的下限（LF）和较高的上限（HF）报告界限，以最小化前向模型的选择概率与受试者的实证置信度判断之间的不匹配。接下来，我们通过最小化模型和实证置信度评分之间的二次距离（定义为不匹配）来找到后向模型的学习率、逆温度以及较低的下限（LB）和较高的上限（HB）报告界限。然后我们从得到的后向模型中模拟了相同基础任务上的新选择。后向模型的性能显著低于前向模型（平均值 = .71 对比 .76；Wilcoxon检验：W = 326，p = 3.412e-04），也低于实证选择（平均值 = .71 对比 .86；Wilcoxon检验：W = 19，p = 4.81e-10）（图3A）。这是预期的，因为后向模型是为了预测置信度评分而拟合的，而不是选择。下载：PPTPowerPoint幻灯片PNG更大图像TIFF原始图像图3. 前向模型和后向模型在选择、置信度和参数方面的比较。A) 后向模型的性能，即模型选择最佳选项的试验比例，显著低于实证和前向模型的性能。此外，前向模型的性能显著落后于实证性能。B) 后向模型的置信偏差水平与前向模型和实证数据没有显著差异，而前向模型的置信偏差与实证数据之间存在微弱但显著的差异。C) 前向模型比后向模型更好地预测了选择，通过负对数似然来衡量。D) 后向模型的置信评分比前向模型的更接近实证数据。E) 后向模型的学习率显著低于前向模型。F) 两种模型的逆温度参数没有显著差异。图中的点代表任务低方差条件下每个受试者的相应估计值。https://doi.org/10.1371/journal.pcbi.1014108.g003在使用适当缩放的（后向模型）和实证评分之间，置信偏差（平均值为3.99对比3.98；Wilcoxon检验：W = 890，p = .205）或后向模型和前向模型之间（平均值为3.99对比3.99；Wilcoxon检验：W = 691，p = .660）没有显著差异（图3B）。然而，前向模型的置信偏差略高于受试者的置信偏差（平均值 = 3.99对比3.98；Wilcoxon检验：W = 102，p = .017）。这种非常小的差异可能来自我们实施的偏差校正。为了进一步量化这一点，我们比较了基于模型的置信偏差和实证置信偏差之间的绝对差异。后向模型和实证评分之间的绝对差异显著小于前向模型和实证评分之间的差异（平均值 = 0.027对比0.095；Wilcoxon检验：W = 82，p = 1.29e-08）。前向模型的拟合度量是实证选择的负对数似然。我们也可以类似地评估后向模型对实证选择的预测的负对数似然，尽管这不是确定其参数值的方法。正如预期的那样，前向模型比后向模型更好地预测了选择，这从前向模型的实证选择的显著较低负对数似然中可以看出（平均值 = 110.12对比163.58；Wilcoxon检验：W = 0，p = 2.456e-10），对于所有受试者来说，前向模型和后向模型之间的负对数似然差异都是负的（平均值 = -53.460，标准差 = 75.680）（图3C）。相反，后向模型更熟练地预测了置信度，其和实证评分之间的二次距离低于前向模型（平均值 = .74对比.78；Wilcoxon检验：W = 1，p = 1.769e-10），对于所有受试者来说，前向模型和后向模型之间的置信距离都是正的（平均值 = .033，标准差 = .056）（图3D）。我们还比较了两种模型之间拟合参数的值。后向模型的学习率显著低于前向模型（平均值 = .66对比.94；Wilcoxon检验：W = 27，p = 4.875e-08）（图3E）。其中一个潜在的原因是选择报告中的自相关（如[28,29]中所述）。这是因为在没有直接机制产生自相关的RL模型中，产生自相关的一种有效方法是具有更相关的选择Q值。这种相关性可以通过使用较低的学习率来实现。因此，我们检查了实证置信率之间的滞后一阶自相关；在受试者之间存在相当大的自相关（平均值 = .5056，标准差 = .2372）。与上述假设一致，置信评分的自相关性越高，后向模型的学习率越低（低方差；r = -.27，p = .049，高方差；r = -.46，p = .46e-04）（S2文本中的图A）。此外，对于逆温度参数，前向模型和后向模型之间没有显著差异（平均值 = 15.15对比24.11；Wilcoxon检验：W = 954，p = .069）（图3F）；置信度的下限和上限参数也是如此（；M = 2.35对比2.15；Wilcoxon检验：W = 367.0，p = .023；M = 4.26对比4.51；Wilcoxon检验：W = 353.0，p = 7.974e-04）（S2文本中的图B）。与二次评分规则的一致性。QSR是一种流行的模型不可知的元认知敏感性度量[21–24]。后向模型的性能与QSR相关（r = .50，p = 1.36e-04）（图4A）。下载：PPTPowerPoint幻灯片PNG更大图像TIFF原始图像图4. 与二次评分规则的一致性，这是一种模型不可知的元认知敏感性度量。A) 后向性能与QSR显著相关。B) 后向性能也与缩放后的QSR显著相关，后者确定了实证置信值的线性缩放以最大化QSR。图中的点代表任务低方差条件下每个受试者的相应估计值。然而，QSR的一个突出问题是它依赖于置信偏差。这一点通过两者之间的显著相关性得到证明（r = .77，p = 1.13e-11）。因此，我们对实证置信值应用了相同的线性重新缩放（通过和），以优化受试者的QSR。我们将这个结果度量称为缩放后的QSR。缩放后的QSR与置信偏差相关（r = .31，p = .022），但程度低于传统的QSR（Z = 3.53，p = 4.10e-4）（见S2文本中的图C）。令人欣慰的是，后向性能也与缩放后的QSR相关（r = .39，p = .0031）（图4B）。我们的元认知敏感性度量与QSR和缩放后的QSR一致，表明即使减少了了对置信偏差的依赖，后向性能也与元认知敏感性的估计一致。元认知效率的度量，MetaRL。MetaRL.Ratio。元RL.Ratio与选择参数和置信偏差的比率。元认知效率的度量需要考虑选择性能对元认知敏感性的影响[8,12]。我们遵循了M-Ratio背后的思想，将后向模型的性能除以前向模型的性能。我们称这个为MetaRL.Ratio。正如预期的那样，尽管前向模型对选择的表征不完美（图3A），我们没有观察到MetaRL.Ratio与实证性能（参与者选择最佳选项的试验比例；r = -.07，p = .599）或前向模型的学习率（r = .18，p = .193）或逆温度（p = .551，r = -.08，CI = [-.34,.19]）参数之间存在显著相关性（图5）。这是一个重要的结果，因为元认知效率的度量理想上应该独立于一阶任务性能。下载：PPTPowerPoint幻灯片PNG更大图像TIFF原始图像图5. MetaRL.Ratio与实证选择参数之间的关系。A) 我们的元认知效率度量MetaRL.Ratio与实证性能（参与者选择最佳选项的试验比例）无关。B) 在应用置信度缩放方法后，MetaRL.Ratio与置信偏差的相关性降低。C & D) MetaRL.Ratio与后向模型的逆温度（C）或学习率（D）没有显著相关性。图中的点代表任务低方差条件下每个受试者的估计值。https://doi.org/10.1371/journal.pcbi.1014108.g005为了更直接地研究这种独立性，我们使用不同的前向模型配置模拟了选择和一阶置信值。具体来说，我们将设置为{.2, .5, .9}，对于每个，我们在连续范围[5, 90]内的10个等距点上采样。这使我们能够评估MetaRL.Ratio对每个的依赖性。我们同样通过在不同范围内变化时，在{5, 15, 40}处采样值来探索MetaRL.Ratio对每个的依赖性。随着学习率（平均值 = .999，标准差 = .007）和逆温度（平均值 = 1，标准差 = .009）的变化，MetaRL.Ratio始终围绕1的值波动，这对于一阶模型来说是预期的（S2文本中的图D）。因此，我们的元认知效率度量即使在参数自由变化的模拟行为中也保持独立于选择参数。如果我们不使用我们的缩放方法来估计人类数据上的MetaRL.Ratio，它显示出与置信偏差的强相关性（r = .85，p = 2.01e-16）。然而，当在MetaRL.Ratio计算中包含缩放方法时，与置信偏差的相关性（r = .40，p = .003）不那么明显（Z = -4.304，p = 1.674e-05）（图5B）。因此，我们的线性缩放方法大大减少了元认知效率对置信偏差的依赖性，无论是对于模型不可知的元认知敏感性度量（缩放后的QSR；如上所述）还是基于后向/前向模型的元认知效率度量。为了测试剩余的依赖性是否部分源于置信报告中的自相关（通过与其他估计参数的交互），我们在后向模型中加入了一个有泄漏的置信表示[29,30]，使得置信度被预测为当前试验的后向置信度和之前试验的报告置信度的线性组合（见方程28；材料与方法）。使用这种泄漏报告机制，后向模型比我们的原始后向模型更好地拟合了实证选择和置信评分（平均值 = .73对比.74，W = 10，p = 4.22e-10）。此外，当使用泄漏置信表示更新MetaRL.Ratio时，它不再依赖于置信偏差（r = .19，p = .161）（S2文本中的图E）。正如我们之前报告的，后向模型的学习率低于前向模型的学习率，后向模型的较低学习率与置信评分的较高自相关相关。正如预期的那样，泄漏后向模型的学习率高于后向模型的学习率（平均值 = .71对比.66，W = 98，p = 9.868e-06），而低于前向模型的学习率（平均值 = .71对比.94，W = 49，p = 4.836e-07）（S2文本中的图F）。我们在S2文本中的图12中讨论了泄漏反向学习率与信心评分的自相关性，以及与反向模型的比较。我们还探讨了MetaRL.Ratio与任务难度的独立性。我们注意到，实证表现和元认知敏感性通常是相关的。在我们的数据中，当任务难度增加时（在高方差条件下），这种相关性也很明显：实证表现（平均值=0.86对比0.78；Wilcoxon检验：W=125，p=1.081e-07）、正向表现（平均值=0.76对比0.68；Wilcoxon检验：W=57，p=3.679e-09）和反向表现（平均值=0.71对比0.64；Wilcoxon检验：W=207，p=4.096e-06）都下降了，因为这两种模型都受到了实证选择的影响（见图6A）。然而，与MetaRL.Ratio作为元认知效率的衡量标准所期望的作用一致，它在统计上并没有显著差异（平均值=0.93对比0.95；Wilcoxon检验：W=858，p=0.322）（见图6B）。下载：PPT、PowerPoint幻灯片、PNG、更大图像、TIFF、原始图像。

图6. MetaRL.Ratio与任务难度的独立性。A) 在高方差条件（HV）下，实证表现（绿色）、正向表现（蓝色）和反向表现（红色）显著低于低方差条件（LV）。B) MetaRL.Ratio在两种任务难度水平之间没有显著差异。C) 根据实证数据（绿色）、正向模型（蓝色）和反向模型（红色），在高方差条件下的信心偏差显著低于低方差条件。https://doi.org/10.1371/journal.pcbi.1014108.g006

在高方差条件下，实证模型的信心偏差低于低方差条件（平均值=3.79对比3.98；Wilcoxon检验：W=400，p=0.003）、正向模型（平均值=3.99对比3.83；Wilcoxon检验：W=443，p=0.01）和反向模型（平均值=3.99对比3.80；Wilcoxon检验：W=438，p=0.009）（见图6C）。因此，在更困难的任务条件下，信心偏差更低，这一效应在受到实证选择影响的正向和反向模型中都得到了复制。因此，我们的元认知效率衡量标准提供了区分任务难度对元认知两个方面影响的机会：效率和偏差。虽然前者与任务难度无关，但后者依赖于任务难度。在高方差条件下，正向学习率略低（平均值=0.89对比0.94，W=288，p=0.041），而反向学习率没有显著差异（平均值=0.63对比0.66，W=655，p=0.76）（见图7A）。在高方差条件下，逆温度显著降低，意味着更多的随机选择（正向模型：M=10.23对比15.15，W=166，p=7.07e-07；反向模型：M=20.13对比20.68，W=423，p=0.01）（见图7B）。任务条件对信心界限参数的影响在S2文本的图G中展示。下载：PPT、PowerPoint幻灯片、PNG、更大图像、TIFF、原始图像。

图7. 两种任务难度水平之间的参数比较。A) 正向模型在高方差（HV）条件下的学习率略低于低方差（LV）条件，而反向模型的差异不显著。B) 逆温度在高难度和低难度之间显著降低，正向模型尤为明显，但反向模型的降低幅度较小。上图中的点对应于每个受试者的估计值。https://doi.org/10.1371/journal.pcbi.1014108.g007

然后，我们研究了两种任务条件下个体之间的实证表现和信心偏差之间的相关性。有些出乎意料的是，实证表现（r=0.07，p=0.621）和正向模型的表现与两种任务难度水平之间没有显著相关性（r=-0.05，p=0.747）。然而，反向模型的表现（r=0.39，p=0.003）和MetaRL.Ratio在两种难度水平之间有显著但轻微的相关性（r=0.35，p=0.011）（表1）。相比之下，信心偏差值在两种难度水平之间有很强的相关性：实证（信心偏差；r=0.70，p=4.86e-9）、正向（信心偏差；r=0.70，p=4.16e-9）和反向（信心偏差；r=0.65，p=9.42e-08）（表2）。反向信心偏差在两种条件下的相关性比MetaRL.Ratio的相关性更强（Z=-2.412，p=0.015）。这与[26]的研究结果一致，他们观察到在不同领域中，元认知偏差比元认知效率更一致地保持了受试者在不同难度水平上的排名。

表1. 低方差和高方差条件下的表现与MetaRL.Ratio之间的相关性。实证模型和正向模型的表现在这两种任务条件之间没有相关性。相比之下，反向表现（红色）和MetaRL.Ratio（紫色）则有关联。https://doi.org/10.1371/journal.pcbi.1014108.t001

下载：PPT、PowerPoint幻灯片、PNG、更大图像、TIFF、原始图像

表2. 低方差和高方差条件下的信心偏差相关性。实证数据和正向、反向模型之间的信心偏差都存在相关性。https://doi.org/10.1371/journal.pcbi.1014108.t002

使用改进的无模型代理进行评估。如前所述，我们使用了一个非常简单的两参数RL模型以便于解释，但这样做的代价是模型的拟合度较低。因此，我们调整了这个模型，为正面和负面预测错误分别设置了不同的学习率，并为未选择的选项设置了单一的学习率（用于反事实更新，假设受试者知道强盗的质量是交替的）。作为正向模型，这个模型更准确地拟合了受试者的选择（BIC=199.19对比244.20，W=1.0，p=1.720e-10），但其表现仍然不如参与者本身（平均值=0.79对比0.86；Wilcoxon检验：W=118，p=7.57e-08）（见S1文本中的图D）。尽管如此，当我们将这些元认知度量方法用于正向和反向模型时，其优势仍然存在（见S1文本中的图E和F）。与混合模型的比较。到目前为止，我们只使用了无模型（MF）强化学习（RL）方法。由于这些模型的表现仍然低于参与者的表现，我们考虑了参与者被告知每18-22次试验会发生逆转这一事实可能产生的影响。为了更准确地捕捉人类行为，我们应用了隐半马尔可夫模型（我们将其视为一种基于模型的（MB）RL；见方程式18-26；材料和方法）和混合模型，其中选择概率结合了MF和MB的动作值（方程式27；材料和方法）。作为正向模型，MB RL对参与者选择的拟合度不如MF RL（AIC=295.44对比224.23，W=260，pBonf=9.783e-05；Bonferroni校正后的三个测试）；BIC=303.42对比232.22，W=260，pBonf=9.783e-05）。相比之下，混合模型的拟合度更好，使用AIC来惩罚复杂性（AIC=193.26对比224.23，W=93，pBonf=6.72e-08）。此外，根据BIC，混合模型的拟合度也更好（BIC=213.22对比232.22，W=93，pBonf=1.00）。根据S1文本中的图G，任务条件对信心界限参数的影响也得到了展示。

下载：PPT、PowerPoint幻灯片、PNG、更大图像、TIFF、原始图像

表1. 两种任务难度水平下的学习率比较。A) 正向模型在高方差（HV）条件下的学习率略低于低方差（LV）条件，而反向模型的差异不显著。B) 逆温度在高难度和低难度之间显著降低，正向模型尤为明显，但反向模型的降低幅度较小。上述图表中的点对应于每个受试者的估计值。

然后，我们研究了两种任务条件下个体之间的实证表现和信心偏差之间的相关性。有些出乎意料的是，实证表现（r=0.07，p=0.621）和正向模型的表现与两种任务难度水平之间没有显著相关性（r=-0.05，p=0.747）。然而，反向模型的表现（r=0.39，p=0.003）和MetaRL.Ratio在两种难度水平之间有显著但轻微的相关性（r=0.35，p=0.011）（表1）。相比之下，信心偏差值在两种难度水平之间有很强的相关性：实证（信心偏差；r=0.70，p=4.86e-9）、正向（信心偏差；r=0.70，p=4.16e-9）和反向（信心偏差；r=0.65，p=9.42e-08）（表2）。反向信心偏差在两种条件下的相关性比MetaRL.Ratio的相关性更强（Z=-2.412，p=0.015）。这与[26]的研究结果一致，他们观察到在各种领域中，元认知偏差比元认知效率更一致地保持了受试者在不同难度水平上的排名。

下载：PPT、PowerPoint幻灯片、PNG、更大图像、TIFF、原始图像

我们使用了一个改进的无模型代理进行评估。如前所述，我们使用了一个非常简单的两参数RL模型以便于解释，但这样做的代价是模型的拟合度较低。因此，我们调整了这个模型，为正面和负面预测错误分别设置了不同的学习率，并为未选择的选项设置了单一的学习率（通常是负值），用于反事实更新（假设受试者知道强盗的质量是交替的）。作为正向模型，这个模型更准确地拟合了受试者的选择（BIC=199.19对比244.20，W=1.0，p=1.720e-10），但其表现仍然不如参与者本身（平均值=0.79对比0.86；Wilcoxon检验：W=118，p=7.57e-08）（见S1文本中的图D）。尽管如此，当我们将这些元认知度量方法用于正向和反向模型时，其优势仍然存在（见S1文本中的图E和F）。与混合模型的比较。到目前为止，我们只使用了无模型（MF）强化学习（RL）方法。由于这些模型的表现仍然低于参与者的表现，我们考虑了参与者被告知每18-22次试验会发生逆转这一事实可能产生的影响。为了更准确地捕捉人类行为，我们应用了隐半马尔可夫模型（我们将其视为一种基于模型的（MB）RL；见方程式18-26；材料和方法）和混合模型，其中选择概率结合了MF和MB的动作值（方程式27；材料和方法）。作为正向模型，MB RL对参与者选择的拟合度不如MF RL（AIC=295.44对比224.23，W=260，pBonf=9.783e-05；Bonferroni校正后的三个测试）；BIC=303.42对比232.22，W=260，pBonf=9.783e-05）。相比之下，混合模型的拟合度更好，使用AIC来惩罚复杂性（AIC=193.26对比224.23，W=93，pBonf=6.72e-08）。根据BIC，混合模型的拟合度也更好，但这种差异并不显著（BIC=213.22对比232.22，W=93，pBonf=1.00）。此外，根据两种度量标准，混合模型对参与者选择的拟合度也更好（AIC=193.26对比295.44，W=1，pBonf=5.16e-10；BIC=213.22对比303.42，W=5，pBonf=6.459e-10）（见S1文本中的图G）。尽管混合模型的表现略低于MF RL（见S1文本中的图H），但总体而言，它是最适合实证选择的模型。在MB和混合模型中，参与者对逆转发生时间的先验信念被建模为块持续时间的负二项分布，由其平均值表示（见S2文本中的图H；I）。直观地说，较大的平均值意味着预期逆转发生的频率较低（即，更稳定的块）。我们发现，与实验中的平均块长度（20次试验）之间的绝对差异显著小于与实验平均块长度之间的差异（平均值=0.935对比8.44，W=0，p=1.191e-10）。因此，混合模型推断的逆转时间比MB模型推断的时间更接近任务的真实块长度。由于混合模型也最好地拟合了参与者的选择，这一结果表明参与者很好地适应了任务结构。我们还使用混合模型作为我们的反向模型，将其拟合到实证选择和信心上。混合模型的信心拟合度显著优于MF RL对信心的表征（平均值=0.68对比0.745，W=0，p=3.504e-10）。基于混合模型的反向表现与QSR（模型不可知的元认知敏感性度量）高度相关（r=0.69，p=8.45e-09）（见S1文本中的图J）。因此，更好的选择模型也导致了更好的信心模型，并且与QSR的一致性更高。此外，与混合模型相关的MetaRL.Ratio与表现无关（r=-0.02，p=0.886），尽管仍然依赖于信心偏差（r=0.49，p=1.56e-04）。遵循我们在无模型信心分析中采用的方法，我们将泄漏信心项[30]纳入了反向模型的信心表示中（见方程式28；材料和方法）。尽管泄漏的信心表示比基本的反向模型更好地拟合了实证选择和信心评分（平均值=0.66对比0.68，W=33.5，p=1.56e-09），但它未能使MetaRL.Ratio独立于信心偏差（r=0.41，p=0.002）。我们发现，正向模型对平均块长度的估计与实验中的实际值之间的绝对差异显著小于反向模型的估计与实验平均块长度之间的差异（平均值=0.935对比8.286，W=0，p=1.191e-10），其中反向混合模型预期逆转发生的时间比正向混合模型更晚（见S2文本中的图I；J）。因此，正向混合模型比反向混合模型更接近参与者在实验中体验到的块长度。

讨论

我们引入了新的元认知敏感性和效率度量方法，用于强化学习（RL）问题，并在旨在检验基于价值选择的信心的实验数据中进行了评估。我们根据反向模型的表现来评估敏感性，该模型合成了与实证信心判断一致的选择——因此，包括了一个生成信心的过程模型[10]。反向模型的表现与模型不可知的元认知敏感性度量QSR一致，同时提供了基于模型的可解释性优势。通过将反向模型的表现与传统的正向模型的表现进行标准化，我们得到了一个称为MetaRL.Ratio的元认知效率度量，这个度量恰当地不随选择表现而变化。此外，我们用于缩放信心判断的方法成功减少了信心偏差对MetaRL.Ratio的影响，这也是其他元认知效率度量（如M-ratio）所追求的理想属性。值得注意的是，MetaRL.Ratio在不同任务难度水平上保持一致，表明它捕捉到了一个稳定的人类特征。我们基于模型的方法来评估元认知敏感性和效率，填补了学习领域的一个空白，满足了这些度量的关键标准。为了提高可解释性，我们基于一个简单的RL模型选择结果展示了主要结果。然而，我们还证明了当应用更先进的无模型RL和基于模型的RL（隐半马尔可夫）处理方法时，我们度量的特性仍然一致。在这个更广泛的建模空间中，混合模型——其中选择概率由MF和MB动作值的加权组合给出——提供了对行为的最佳解释。它的预测与实证选择和信心数据更为接近，其整体拟合度超过了MB RL。此外，混合模型还对参与者关于块长度（逆转时间）的信念提供了更好的描述，这表明无模型和基于模型的计算的结合可能更好地捕捉人类行为。在此基础上，探索其他形式的前向和反向模型（例如，无模型与基于模型的RL处理，如[31,32]）将是直接的，包括它们的信息部分不同的表征（如二阶信心处理[29]）。此外，可以使用其他模型派生的量来细化信心表示，例如所选选项的Q值、Q值之间的绝对差异[30,33,34]，或探索与利用之间的区别[35]。为了允许参与者报告信心的方式有所不同，我们将模型的信心线性缩放，以使其与实证评分最佳对齐。我们预期并确实观察到，这种方法将有助于减少信心偏差对反向模型和MetaRL.Ratio表现的影响（以及缩放后的QSR）。通过应用泄漏的信心表示[29,30]，它更接近实证信心报告，MetaRL.Ratio在无模型（MF）强化学习框架内变得独立于信心偏差——尽管在混合模型中并非如此。因此，泄漏的信心表示并没有成为所有模型的通用解决方案。探索MetaRL-Ratio对置信偏差的依赖性是否可以通过使用替代的缩放方法或泄漏的置信表示来缓解将会很有趣。值得注意的是，[16]报告了元认知效率与置信偏差之间的关系，其中较高的或较低的元认知效率分别对应较高的或较低的置信偏差。反向模型的学习率显著低于正向模型，我们将这一结果归因于[28,29]最初观察到的经验置信评分的自相关性，并在此得到了复制。实际上，较低的反向学习率与较高的自相关性相关（这是一个更复杂的反向模型可以消除的特征；见S2文本中的图A）。一致地，泄漏反向模型的学习率高于反向模型，但仍低于正向模型（见S2文本中的图F）。此外，在低方差条件下，泄漏反向学习率与置信评分的自相关性无关，而在高方差条件下，它仍然与置信自相关性呈负相关（见S2文本中的图A）。这表明，至少在低方差条件下，泄漏的置信表示减少了学习率对置信自相关性的依赖性。需要进一步的工作来改进两种任务条件下的置信表示。在模拟数据中，反向模型的参数对人为添加的置信噪声敏感，这在两个不同的代理中都有观察到（见S1文本中的图C）。正如预期的那样，随着噪声方差的增加，学习率下降，因为我们的置信模型对噪声较大的置信水平的预测不如对噪声较小的置信水平准确。相反，逆温度在较高噪声方差的影响下降低。尽管这些结果的解释需要进一步分析，但它们与每个噪声水平下的学习率和逆温度的相关性无关（见S2文本中的图K）。我们观察到MetaRL.Ratio在不同任务难度水平上没有显著差异。相比之下，在更困难的高方差条件下，经验性能、正向和反向性能以及置信偏差都较低。[30]评估了结果效价对置信偏差的影响，发现在收益超过损失的情况下置信偏差更高（这是我们无法评估的），尽管经验性能没有受到影响。因此，结果方差、增加的任务难度和结果的负面效价减少了元认知偏差。这为未来研究提出了一个重要问题，即任务特征如何影响元认知偏差和效率。我们的观察结果，加上[30,34]的结果，提供了对任务条件对置信和元认知能力影响的更全面理解。具体来说，我们建议我们的度量方法将有助于区分任务条件对学习领域中元认知两个方面的影响，扩展了[30,34]的分析。我们的MetaRL.Ratio参数化强化学习框架使我们能够比较任务难度对正向和反向参数的影响，包括学习率、逆温度和置信界限参数。我们观察到在高方差条件下，正向学习率略低于低方差条件，这是由于随机性与认知不确定性的影响[36,37]。虽然任务难度对反向学习率没有影响，但它显著降低了正向和反向的逆温度，对前者的影响更为明显，对后者的影响较为温和。正向逆温度的降低与选择噪声较大一致；如果参与者知道选择是噪声较大的，那么他们会报告较低的置信度（见图6C）。然而，正向和反向模型都没有考虑任务难度的其他方面，例如众所周知的探索与利用之间的权衡[27]。这种权衡如何影响置信报告尚不完全清楚[35]。值得注意的是，任务难度对正向参数的影响比对反向模型的影响更为明显。这一发现与任务难度对置信偏差的影响小于对经验性能的影响的观察结果一致。它还表明，正向和反向参数有效地反映了任务难度对两个不同决策层次的影响。元认知效率度量的一个基本属性是，如果参与者相同，它应该在不同的任务难度下保持一致。我们观察到，我们的元认知敏感性和效率度量在受试者之间是一致的，而经验性能或正向性能则不是这样。在我们的元认知偏差度量中也观察到了一个一致的排序。我们发现，无论是经验表示还是模型表示的置信偏差，在两种条件下都保持了受试者之间的感知顺序。在[26]的一项研究中，报告了不同认知领域和任务之间元认知敏感性的轻微相关性，而置信偏差的相关性很高，他们将其称为参与者的“指纹”。至少在相关性的强度方面，我们的结果与[26]报告的结果一致。尽管我们的研究和他们的研究在任务难度上存在差异，但我们的发现为元认知敏感性和偏差之间的区别提供了更一致和更广泛的视角。这促使进一步研究哪些方面可以作为参与者的更可靠的“指纹”。后续研究可以揭示这些元认知方面的神经表征在各种领域和任务中的情况。虽然我们专注于人类元认知，但在许多领域中对自动化决策者的依赖正在增加[38–40]。虽然这些系统通常比人类表现得更好，但它们也可能犯重大错误。如果它们能够准确评估自己的性能——即具有元认知敏感性和效率——那么就可以更适当地信任它们[41,42]。这些系统使用的环境几乎不可避免地涉及不同的性能，因此需要像这里讨论的这样的度量。总之，我们引入了一个基于模型的元认知效率度量方法，用于学习领域，并在双臂老虎机任务的大量数据集上对其进行了验证。我们的度量与经验性能无关，我们缩放置信值的方式减少了对其置信偏差的依赖性。我们的元认知敏感性度量也与QSR一致。我们的度量使我们能够区分不同任务难度下元认知的两个方面，并允许我们深入探讨元认知行为的参数解释。

材料与方法
伦理声明。该研究得到了鲁汶大学社会与社会伦理委员会（SMEC）的批准，参考编号为G-2020–2895-R2(MAR)。

认知任务。实验包括六十名参与者，他们都是鲁汶大学的一年级心理学学生，为了获得课程学分而参与。关于年龄、性别和惯用手的信息没有记录，因此是未知的，尽管通常可以预期这个群体中大多数是右撇子、18岁的、主要是女性参与者。所有参与者都通过电子邮件提供了知情同意，并且不知道研究的假设。由于有六名参与者的表现在至少一个区块中保持在机会水平，因此他们的数据被移除，最终样本为五十四名参与者。参与者在自己的PC上完成任务，数据通过Pavlovia平台（pavlovia.org）在线收集。只有使用带有外部鼠标的Windows PC的参与者被允许参与。他们被告知任务的目标是在虚拟老虎机上赚取尽可能多的钱。在每次试验中，参与者在两个老虎机之间进行选择——分别对应S键（左）和F键（右）——其中一个老虎机提供更高的平均奖励。他们被告知每18-22次试验后，老虎机会切换，使得之前较差的老虎机变成较好的那个。每次选择后，参与者在一个从“这只是猜测”到“非常确定”的连续尺度上表示他们的置信度。然后显示基于他们选择的数值奖励，然后开始下一次试验。得分最高的三名参与者获得了当地商店的礼品券。在实验的低方差条件下，较差或较好选择后的奖励来自正态分布。在高方差条件下，奖励来自其他分布。这些条件以平衡的顺序进行，间隔12-72小时，每个条件之后是一个未在此分析的中等方差条件。低方差和高方差条件各包含20个区块，每个区块有18-22次试验，总共每个条件有400次试验。

排除标准。为了排除表现处于或低于机会水平的参与者，我们分别对高方差和低方差条件应用了卡方拟合优度检验。该方法将观察到的表现（正确与错误响应）与随机猜测下的预期分布（50%正确）进行比较。卡方统计量计算如下：(1)其中Oi是观察到的频率，Ei是在零假设下的预期频率。我们使用了1个自由度，因为测试涉及两个类别（正确和错误响应），自由度计算为类别数量减一。那些表现没有超过1个自由度下的卡方临界值3.841（p<0.05）的参与者——即他们的选择与机会（50/50）没有显著差异——被排除在进一步分析之外。这导致六名参与者被排除。

统计测试。我们使用了三种类型的统计测试：用于比较两个组的非参数Wilcoxon检验、用于评估两个变量之间相关性的Pearson相关检验，以及用于比较两个相关结果的Z-Fisher检验。

计算建模
置信的正向模型。我们使用最大似然估计来拟合每个参与者的选择。模型的无处理方法是基于Q学习的，学习率为α，softmax探索与逆温度为β：(2)(3)我们使用最大似然来拟合这些：(4)其中是参与者的经验选择。我们通过最佳拟合正向模型在选择平均奖励较高的选项的频率来评估其性能，对于参与者s，在任务上自主运行时使用与参与者在实验中经历的相同（潜在）奖励序列。这是我们用于模型拟合后验预测检查的方式。为了模拟正向置信，我们使用参数L和H缩放softmax的输出（写为对于参与者s），L和H的范围都是[1,5]，并且满足L < H：(5)我们通过最小化缩放后的置信（使用scipy.optimize.minimize）与经验置信（）之间的欧几里得距离来拟合这些。(6)在上述方程中，和都在[1,5]的范围内。

置信的反向模型。对于感知决策的情况，元认知敏感性度量meta-d′来自于将置信的经验报告视为概率选择过程的结果（如一阶决策模型），并量化该模型的有效感知敏感性。这可以看作是从置信反向到选择的过程。因此，我们定义了一个反向模型（图1，深红色），在其中我们将参与者的选择描述为来自与正向模型相同的RL过程，但调整决策参数以使（类似缩放的）选择概率尽可能匹配经验置信判断（而不是匹配经验选择）（方程9；10）。然后我们评估了最佳拟合反向模型在任务上自主运行时的性能，就像正向模型一样。完整形式为：(7)(8)并将这写为对于反向模型的参与者s，模型化的置信为：(9)其中L和H，L < H，具有与正向模型中相同参数的限制。参数通过最小化模型预测的置信值与受试者报告的置信值之间的欧几里得距离来拟合：(10)注意到的依赖性，因此依赖于。元认知效率的度量。受到M比率用于感知决策的启发，我们定义了MetaRL.Ratio作为元认知效率的度量。

拟合和模拟。“结果”部分或“S1文本”和“S2文本”中描述的所有分析的拟合都重复了120次，以稳定估计。利用每个受试者的拟合参数，我们对100次模拟进行了平均，以估计模型性能。这种平均考虑了由于softmax选择函数而导致的模型固有的随机性。所有分析都是使用Python和scipy.optimize.minimize模块实现的，目的是最小化每个受试者的负对数似然值。我们在受试者和模型（包括前向和后向模型）之间采用了统一的参数范围，这些参数受到L < H的约束。考虑到实证选择（当更好的强盗被选中时），如果实证选择是更好的强盗，则每次试验的性能为1，否则为0。置信值的范围是[1,5]，并且（标准化的）QSR被归一化以便与性能进行比较。如果没有归一化，如果置信评分有不同的范围（例如[1,6]或[0,100]），QSR可能会过度或低估其中一个指标。然后，我们根据前向和后向模型的相同程序对实证置信值进行了缩放（公式5和9）。我们称公式14右侧表达式的最大值为缩放后的QSR。我们还使用更强大的强化学习（RL）算法探索了我们的元认知测量方法。这种方法根据预测误差（15）是正还是负，来区分试验t时所选动作的学习率：（16）并且还使用了反事实学习，调整未选择动作的Q值及其自身的（通常是负的）学习率：（17）基于参与者知道强盗是相互独立的这一事实——因此，如果他们发现一个强盗比预期的要好，那么另一个强盗应该比预期的要差。这个四参数模型比简单的两参数Q学习模型更适应实际情况（见S1文本中的图D）。基于模型的决策制定；隐半马尔可夫模型（HSMM）。在基于模型的框架中，环境的潜在状态是通过HSMM推断出来的，该模型明确考虑了状态持续时间。这里，两个潜在状态（用索引表示）代表哪个动作有更高的奖励。在状态1中，动作1有更高的奖励；在状态2中，动作2有更高的平均奖励。我们将从时间1到t的潜在状态序列表示为S1:t。设随机变量h为当前状态已经花费的时间，随机变量d为当前状态的总持续时间。那么潜在状态、过去奖励和持续时间的联合概率可以表示为：（18）其中表示完整的模型参数集：D是潜在状态的最大可能持续时间；n和p是负二项分布持续时间的参数（公式22）。是与状态S和动作a相关的平均奖励；是高斯奖励分布的标准差，这取决于任务条件（高方差或低方差）。通过边缘化d和h随机变量，我们得到：（19）我们定义前向变量为从时间1到t观察到的奖励的联合概率，表示为r1:t，以及在a1:t条件下状态j在时间t结束的事件。它可以对任何时间t和状态j递归计算：（20）使用公式20并假设均匀先验（对于h > d，先验为0），公式19简化为：（21）持续时间建模。我们假设一个潜在状态持续时间为d（在我们的实现中D = 70，因为跨受试者和条件观察到的连续相同动作的最大数量是68）。持续时间d使用截断负二项分布进行建模：（22）负二项分布NB(n,p)可以解释为在固定数量的尾部出现之前观察到的头部数量的分布，这些尾部是在具有尾部概率p的重复伯努利试验中产生的。因此，持续时间d对应于在生成n个尾部之前观察到的头部数量。几何分布是负二项分布的一个特例，其中n = 1。截断NB(n,p)的均值代表了模型对反转试验的估计。基于模型的决策制定；隐半马尔可夫模型（HSMM）。在基于模型的框架中，环境的潜在状态是使用HSMM推断出来的，该模型明确考虑了状态持续时间。在这里，两个潜在状态（用索引表示）代表哪个动作有更高的奖励。在状态1中，动作1有更高的奖励；在状态2中，动作2有更高的平均奖励。我们将从时间1到t的潜在状态序列表示为S1:t。设随机变量h为当前状态已经花费的时间，随机变量d为当前状态的总持续时间。那么潜在状态、过去奖励和持续时间的联合概率可以表示为：（18）其中表示完整的模型参数集：D是潜在状态的最大可能持续时间；n和p是负二项分布持续时间的参数（公式22）。是与状态S和动作a相关的平均奖励；是高斯奖励分布的标准差，这取决于任务条件（高方差或低方差）。通过边缘化d和h随机变量，我们得到：（19）我们定义前向变量为从时间1到t观察到的奖励的联合概率，表示为r1:t，以及在a1:t条件下状态j在时间t结束的事件。它可以对任何时间t和状态j递归计算：（20）使用公式20并假设均匀先验（对于h > d，先验为0），公式19简化为：（21）持续时间建模。我们假设一个潜在状态持续时间为d（在我们的实现中D = 70，因为跨受试者和条件观察到的连续相同动作的最大数量是68）。持续时间d使用截断负二项分布进行建模：（22）负二项分布NB(n,p)可以解释为在固定数量的尾部出现之前观察到的头部数量的分布，这些尾部是在具有尾部概率p的重复伯努利试验中产生的。因此，持续时间d对应于在生成n个尾部之前观察到的头部数量。几何分布是负二项分布的一个特例，其中n = 1。截断NB(n,p)的均值代表了模型对反转试验的估计。对于每个受试者，参数n和p是使用线性网格搜索拟合的：p从0.01线性变化到0.99，步长约为0.06，n从1变化到100，步长为6。发射模型。这是在给定每个试验中的潜在状态和动作的情况下观察到的奖励序列的概率（）。由于不同试验中的奖励在给定状态和动作的条件下是条件独立的，我们可以将联合概率分解为：（23）其中被建模为具有与任务中相同的均值（）和方差（）的高斯分布，均值分别为40和60，方差分别为8或16。不失一般性，我们假设在状态St = 1时，动作a产生的平均奖励更高，对于St = 2也是如此。然后我们有：（24）其中取决于任务条件是高方差还是低方差。使用公式21，我们可以计算每个状态的后验概率：（25）最后，我们定义每个动作的概率，对应于该动作具有更高平均奖励的状态的概率。例如，如果在状态1中设置，则在状态1中动作a的概率更高；在状态2中，如果设置，则在状态2中动作a的概率更高，那么我们有：（26）混合模型，结合了MF和MB模型。MB概率PMB(a|S）（如上所述获得）与通过softmax函数对Q值计算的模型自由（MF）概率相结合（公式8）。在我们的模拟中，总体选择概率是一个加权混合：（27）其中是混合权重。因此，MB概率与MF概率混合以模拟动作响应，并且HSMM前向变量根据后续试验的新奖励信息进行更新。混合模型的拟合方法与HSMM的拟合方法相同。置信度的泄漏模型。在后向模型[29,30]中，基于MF和混合选择模型，置信度的表示中添加了一个泄漏项，因此项（9）与线性结合：（28）表示跨试验的置信度泄漏积分。这里，表示当前试验的置信度（在对响应概率应用线性变换之后），表示前一个试验的置信度，是一个介于0和1之间的参数，用于确定当前置信度和前一个置信度之间的权重。这个方程意味着当前试验的置信度估计不仅仅基于当前响应概率，还受到前一个试验置信度的影响。当时，只考虑当前置信度；当时，系统完全依赖于前一个置信度值。对于中间值，估计是一个加权平均值，随着时间的推移创建了一个平滑的泄漏积分。支持信息致谢感谢Monica De Bock在数据收集方面的帮助。参考文献

热点排行