联想记忆与语义相似性之间的联系:来自扇形实验和分布式模型的证据
《Cognitive Science》:The Connection Between Associative Memory and Semantic Similarity: Evidence From Fan Experiments and Distributional Models
【字体:
大
中
小
】
时间:2026年04月29日
来源:Cognitive Science 2.4
编辑推荐:
摘要
记忆检索容易受到干扰:当记忆中的多个概念与给定的检索线索匹配时,回忆的速度会变慢,准确性也会降低。这一点在扇形效应实验中得到了反复研究,实验中参与者学习的是人物-地点对的组合。这些实验通过操纵概念的“扇形”——即与之关联的事实数量——来建立干扰。标准的理论解释是“扩散激活
摘要
记忆检索容易受到干扰:当记忆中的多个概念与给定的检索线索匹配时,回忆的速度会变慢,准确性也会降低。这一点在扇形效应实验中得到了反复研究,实验中参与者学习的是人物-地点对的组合。这些实验通过操纵概念的“扇形”——即与之关联的事实数量——来建立干扰。标准的理论解释是“扩散激活”:当一个线索与多个记忆痕迹相关联时,激活会在这几个痕迹之间扩散,从而降低目标的可检索性。我们研究这种扩散激活是否仅由明确学习的关联引起,还是也由语义相似性引起。我们表明,在记忆的理性分析中,扩散激活实际上是逐点的互信息,而在某些向量空间意义模型中,相似性也近似于相同的量,这使得这些模型可能成为记忆理性分析的形式化实现。在两个使用荷兰语刺激的行为实验中,我们首先复制了经典的扇形效应。实验2测试了这种干扰效应是否仅通过语义相似性就能引起,使用预训练的词嵌入来构建语义扇形。我们发现,在更高语义扇形条件下,项目的检索速度更慢,准确性更低,这与实验1的模式一致。在模拟中,我们展示了嵌入空间中的相似性能够以与记忆理性模型一致的方式预测检索难度。这些结果将向量空间意义模型与记忆的理性分析正式联系起来,并证明了语义相似性足以产生记忆中的关联干扰。
1 引言
认知科学中的一个稳健发现是,当记忆中的多个项目与检索目标共享特征时,记忆检索的速度会变慢,准确性也会降低。这些特征充当检索线索。当多个项目与同一线索匹配时,它们会与目标一起被激活,从而降低目标的可访问性。这种基于相似性的干扰在多个领域都有观察到,例如句子处理(例如,J?ger, Engelmann, & Vasishth, 2017; Lewis & Vasishth, 2005; Van Dyke, 2007; Van Dyke & McElree, 2011)、视觉工作记忆(Oberauer & Lin, 2017)和情景记忆,特别是在扇形效应中(Anderson, 1974; Anderson & Reder, 1999)。专注于后者,扇形效应研究表明,与线索相关联的概念数量增加会导致反应时间(RTs)延长和准确性降低。对扇形效应和其他基于相似性的干扰现象的常见理论解释是基于“扩散激活”(Collins & Loftus, 1975)。激活指的是记忆表征的可访问性(Anderson & Reder, 1999)。当多个项目共享线索时,激活会在它们之间扩散,产生典型的干扰模式。这引出了一个更广泛的问题:不同类型的相似性,即共享的线索,是否会引起相同的检索动态。基于这一想法,多项研究探讨了记忆表现如何受到单词相似性的影响,这些相似性是使用高维向量空间的语义表征来量化的(例如,Griffiths, Steyvers, & Tenenbaum, 2007; Jones, Kintsch, & Mewhort, 2006; Mandera, Keuleers, & Brysbaert, 2017; Meghdadi, Duff, & Demberg, 2026; Osth, Shabahang, Mewhort, & Heathcote, 2020; Reid & Jamieson, 2023; Smith & Vasishth, 2020)。一些最近的框架进一步结合了表示性和过程层面的方法来研究记忆,包括语义、正字法和音韵信息(Guitard, Saint-Aubin, Reid, & Jamieson, 2025),并纳入了单词的感知信息(例如,Osth & Zhang, 2024)。这些模型在预测人类检索行为方面的成功可以看作是向量空间中的相似性与人类记忆模型中扩散激活之间对应关系的支持。当一个线索被表示为一个向量时,它与相邻向量的相似性决定了这些概念被激活的强度。这反映了人类记忆模型中提出的检索动态。在本文中,我们专注于基于记忆理性分析(Anderson, 1990; Anderson, 1991)的相似性干扰解释,该框架假设记忆过程适应了环境结构和用户的目标。这已在适应性控制思维-理性认知架构(ACT-R, Anderson, Bothell, & Byrne, 2004; Anderson, 2007)中得到实现,该架构提供了一个计算模型,描述了记忆如何在这些理性原则下运作。记忆的理性分析在ACT-R中的实现正确预测了扇形效应(Anderson & Lebiere, 1998; Anderson & Reder, 1999),并且至少部分成功地应用于除了反应时间和准确性之外的数据,例如脑电图(EEG)数据(Borst, Schneider, Walsh, & Anderson, 2013)。有人假设记忆的理性分析模型与词义模型密切相关(Günther, Rinaldi, & Marelli, 2019; Hollis, 2017)。然而,目前这两种方法之间还没有明确的联系。也就是说,我们缺乏一个将向量空间模型中的语义相似性直接映射到记忆理性分析的形式化解释,这限制了我们对扩散激活的理解,以及向量空间模型与记忆关系的理解。对于扩散激活的研究来说,一个具体的限制是很难将现有的关联纳入ACT-R框架,因为ACT-R没有考虑自然语言的接触。与基于大型语料库确定关联的分布式模型不同,ACT-R无法直接捕捉日常生活中或较长对话中形成的关联类型。在本文中,我们提供了缺失的形式化联系。更具体地说,我们将扩散激活与带有负采样的skip-gram模型联系起来,这是最流行和最常用的词汇意义向量空间模型之一。使用这些模型,我们进一步表明,扇形效应,因此记忆中的激活扩散,可以扩展到从自然语言使用中推断出的语义关系。我们首先建立了记忆理性分析、扩散激活和向量空间意义模型之间的联系。然后我们通过实验证据进行讨论,提出了两个研究荷兰语中扇形效应的实验。实验1复制了经典的扇形范式(Anderson, 1974; Anderson & Reder, 1999)。我们讨论这个实验有两个原因。首先,确定荷兰语也表现出经典的扇形效应很重要,因为第二个实验也是用荷兰语进行的。其次,经典的扇形实验是在参与者被明确指示通过列出给定探针的所有关联来记忆单词的扇形时测试扇形效应的。这使得不同条件下的扇形大小差异变得清晰可见。我们想确认结果不是由参与者在学习过程中对扇形大小的明确意识所驱动的。实验2是本文的主要实证贡献。它通过用来自向量空间模型的独特语义相似刺激替换重复的相同概念来扩展扇形效应设计,以创建关联扇形。实验1和之前使用扇形效应的研究可以被视为语义相似性最大的情况,即同一扇形内的单词是相同的。实验2测试了当扇形由高但不完全的语义相似性定义时,扇形效应是否仍然存在。在这种设置中发现扇形效应为向量空间意义模型与记忆理性模型之间的联系提供了新的实证支持。我们最后通过展示建模结果来支持向量空间模型与记忆理性分析之间的联系。正如我们将看到的,在链接假设下,向量空间模型可以预测扇形效应,无论是经典的还是我们在实验2中建立的。
2 在记忆的理性分析和向量空间意义模型中预测扇形效应
在记忆的理性分析中(Anderson, 1990; Anderson, 1991),信息的激活(一个块)代表了模型对该事实所需概率的估计。激活取决于两个因素:历史因素,它代表了由于该块过去的使用而产生的激活;以及上下文因素,它模拟了上下文中的线索如何影响该块的激活。对于包括扇形效应在内的关联,上下文是关键因素(Anderson, 1991; Anderson & Reder, 1999),而历史因素可以忽略。遵循ACT-R的术语,我们将由于上下文产生的激活称为扩散激活。对于某个线索和信息块,扩散激活的公式如(1)所示,其中 是该块所需的概率, 是在我们接收到线索的情况下该信息块所需的概率。
(1)
以这种方式定义,扩散激活会产生扇形效应(Anderson & Lebiere, 1998)。这可以通过观察到 与单词的扇形成反比来理解。这是因为更高的扇形——更多的与线索的关联——降低了特定块所需的概率。较低的扩散激活转化为更多的错误和更慢的响应(参见Anderson, 2007)。扩散激活的理性分析公式在(1)中给出,是逐点的互信息(pmi)(Brasoveanu & Dotla?il, 2020, 第6章;Farahat, Pirolli, & Markova, 2004;Stanley & Byrne, 2016)。pmi指标经常用于计算语言学中,以衡量术语之间的关联(参见Levy & Goldberg 2014的讨论)。这对于我们在记忆的理性分析和向量空间模型之间建立联系至关重要。将扩散激活解释为pmi度量使得将记忆的理性分析和使用pmi来权衡共现的计数分布语义模型联系起来变得直接。然而,在本文中,我们关注的是超越计数模型的模型,即所谓的语义-向量模型(参见Baroni, Dinu, & Kruszewski 2014对计数模型和预测模型的比较)。这些模型的向量意义空间是通过训练构建的,以最佳预测单词在特定上下文中出现的概率。为了具体说明,我们的重点将放在带有负采样的skip-gram上(Mikolov, Sutskever, Chen, Corrado, & Dean, 2013)。Skip-gram模型预测标记为目标词 和上下文词 的一对单词共现的概率。在训练过程中,skip-gram模型最大化 和 的共现概率,并最小化“负”样本的概率:这些样本是对于目标词 ,从词汇表中随机选择一个词 。这个学习目标将skip-gram和pmi度量联系起来(Levy & Goldberg, 2014):在假设意义表征彼此独立的情况下, 和 的意义表征的相似性(技术上,它们意义向量的点积)近似于两个元素的pmi度量,其中 是训练中取出的负样本数量。因此,我们看到记忆的理性分析中的扩散激活和skip-gram模型的词向量表示的点积代表了同一个数学概念,即pmi度量。因此,如果认知科学家将ACT-R记忆模块视为理性分析的实现,那么就有理由将skip-gram模型视为另一种表示,至少在关联结构方面是如此。ACT-R的扩散激活和skip-gram模型之间的主要区别在于它们的应用:前者用于捕捉情景记忆中的概念快照,而后者是语言模型,在我们的案例中是上下文-目标词预测。如果人类记忆模型中的扩散激活与向量空间模型中的语义相似性之间存在联系,那么我们应该能够找到基于语义相似性的扇形效应,而不仅仅是基于单词身份的扇形效应。我们从证明荷兰语中可以观察到扇形效应的实验开始,因为在实验2中我们使用了荷兰语表达。在此过程中,我们还展示了即使参与者没有明确看到单个单词的扇形大小——这是由记忆的理性分析预测的,但据我们所知,这之前尚未被测试过——扇形效应仍然成立。第二项实验是本文的主要成果:它测试了记忆的理性分析中的激活与skip-gram向量空间模型之间的形式联系,据我们所知,这种联系迄今为止尚未被建立。具体来说,我们研究了如何利用预训练的向量空间来揭示扇形效应实验中的记忆关联。该实验使用了预训练的skip-gram嵌入,并将其与扇形实验相结合,在扇形实验中,根据模型,语义相关的词会形成一个扇形。如果向量空间模型能够很好地近似扩散激活,我们预期使用它们的预训练内部表示也应该能够揭示出扇形效应。据我们所知,之前从未研究或考虑过这种扇形效应的存在。我们将看到,实验确实显示了预期的扇形效应,这支持了向量空间模型与记忆的理性分析之间的联系。
3 实验1—复制研究
扇形效应之前已经通过实验范式进行了研究,其中参与者学习简单的事实,例如,“The hippie is in the park”(Anderson & Reder, 1999)。在这些研究中,单个概念(在这种情况下是hippie和park)与其他概念结合出现在多个事实中,形成了一个关联的扇形——与给定概念相关联的不同事实的数量。在学习了一组事实之后,参与者执行一个检索任务,以确定呈现的事实是否之前被研究过(目标)或没有(干扰项)。我们的第一个实验是对Anderson和Reder(1999)的扇形实验的修改复制。在这个复制实验中,我们使用了荷兰语而不是英语的刺激材料,并采用了一种调整后的学习方法,具体方法将在下面详细描述。测试这两种变化是为了验证用于实验2的方法的有效性。我们将实验限制在两种条件下,即扇形2和扇形4,并将刺激集的大小减少到24个目标句子(相比之下,Anderson & Reder, 1999中有48个句子),以缩短实验时间。实验获得了乌得勒支大学语言科学研究所当地伦理委员会的批准。
3.1 方法
我们使用遵循“De persoon is in de/het locatie”(“人位于地点”)模式的短句进行了扇形实验。在扇形2中,一个概念是固定的(人或地点),而在扇形2和扇形4中,另一个概念是变化的(地点或人)。对于每个参与者,我们创建了一个包含24个句子的独特刺激集。在8个刺激句子中,两个概念都被设置为扇形2(2-2),而在其余16个句子中,要么是人概念(4-2),要么是地点概念(2-4)被设置为扇形4。一半的参与者在一个刺激集上进行了测试,其中人的扇形在2和4之间变化,而地点的扇形保持为扇形2;另一半参与者在另一个刺激集上进行了测试,其中地点的扇形发生变化。表1展示了概念组合的模式示例。
3.1.1 材料
为了创建刺激集,我们使用了描述职业的人名词和可以与介词in结合的地点词。为了控制词长和复杂性对反应时间(RTs)的影响,所有选定的词在形态上都很简单,长度在4到9个字符之间。此外,我们根据SUBTLEX-NL语料库(Keuleers, Brysbaert, & New, 2010)中的Zipf尺度匹配了每个类别(人或地点)内的项目频率(人名词的均值=4.14,范围=3.27–5.38;地点词的均值=4.20,范围=3.03–5.09)。所有句子都遵循了之前描述的“De persoon is in de/het locatie”模式,我们用相应的刺激词替换了persoon和locatie。我们平衡了包含de和het作为地点限定词的句子数量。每个参与者都收到了一份独特的刺激集,该刺激集是根据表1中的模式通过随机分配人名词和地点词列表中的词汇项来创建的。
3.1.2 参与者
我们在实验室(N=50)和在线(N=100)收集了数据。对于实验室实验,我们通过乌得勒支大学社会与行为科学学院的ILS实验室数据库和SONA系统招募了参与者。所有参与者都提供了知情同意。对于在线实验,我们通过Prolific平台招募了参与者(所有参与者的评分都很高,95–100%)。所有参与者都是来自荷兰的成年荷兰语母语者。
3.1.3 设计和程序
实验是用PsychoPy(Peirce等人,2019)编程的。实验大约需要45分钟完成,包括三个部分,反映了经典扇形实验的结构:暴露阶段、学习阶段和测试阶段。
在暴露阶段,每个句子被呈现一次。参与者被指示仔细阅读每个句子,并通过按下按钮进入下一个句子。在随后的学习阶段,我们为每个句子创建了两个问题:“Waar is de persoon?”(“人在哪里?”)和“Wie is in de/het locatie?”(“谁在地点?”),用刺激句子中使用的词替换了persoon和locatie。因此,“De kapitein is in de toren”这个句子会伴随着“Waar is de kapitein?”和“Wie is in de toren?”这两个问题进行学习,从而为24个刺激句子生成了48个问题。问题以随机顺序呈现,有四个回答选项。其中一个回答选项是正确的,而其他回答是从刺激集中随机抽取的。错误的回答是那些不属于所讨论扇形的项。参与者通过点击回答选项来回答问题。回答没有时间限制。如果问题回答正确,那么在当前的学习阶段中这个问题就会被忽略;如果回答不正确,那么在轮次结束时它会再次出现。在所有问题都正确回答后,完成了一轮学习阶段。这次实验中的学习阶段与之前的扇形实验(例如,Anderson, 1974; Anderson & Reder, 1999; Bunting, Conway, & Heitz, 2004; Cantor & Engle, 1993)有所不同。在之前的实验中,参与者需要列出给定人的所有可能地点,反之亦然。这种设置通过要求参与者根据扇形条件列出两个或四个关联,使扇形操作对参与者来说更加清晰。为了解决这种潜在的混淆,我们采用了一种方法,在给定线索的四个可能回答选项中探查一个关联。我们的目标是验证在这种方法学变化下扇形效应是否仍然存在,确保我们的结果不是由参与者在学习过程中对扇形大小的明确意识所驱动的。
3.2 结果
从第一次实验的两个数据集中,我们排除了在测试阶段准确率低于平均水平的参与者,以排除偶然给出的回答。我们选择这个阈值是为了确保参与者的表现可靠地高于随机水平,同时仍然允许一些变异性。这导致实验室中有46名最终参与者,在在线数据集中有88名参与者。我们使用R语言(R Core Team, 2024)和brms包(Bürkner, 2017)对两个数据集分别进行了准确率和RT数据分析,采用了分层贝叶斯广义线性混合模型。
3.2.1 准确率
表2展示了测试阶段记录的平均准确率的描述性总结。在实验室和在线数据集中,与地点扇形为2的刺激相比,地点扇形为4的刺激的准确率下降了,表明当地点扇形较高时,参与者犯了更多的检索错误。在线数据中也观察到了类似的模式,即人扇形较高的刺激也是如此。在实验室数据中,人扇形为2的条件与扇形为4的条件之间的准确率没有差异。这可能是由于实验室样本量较小(N=46)以及数据收集方法的不同(在线实验与实验室实验)。为了更好地估计效应大小,我们合并了两个数据集的数据(Accuracy merged)。
我们为两个数据集分别拟合了相同的分层贝叶斯模型,该模型使用了Bernoulli似然函数和对数链接函数。模型使用了四个采样链,每个链运行了3000次迭代。每个链的前1500次采样迭代被丢弃作为热身。截距的先验分布是正态分布,均值=0,标准差=2。对于斜率,我们使用了正态分布,均值=0,标准差=1。随机效应的标准差也采用了正态分布,均值=0,标准差=1。最后,对于随机效应的相关性,我们使用了LKJ分布(Lewandowski, Kurowicka, & Joe, 2009),其中=2。模型收敛了。报告的Rhat值都接近1(最大Rhat=1.004),表明各个链混合得很好,且在热身之后没有出现分歧。在嵌套模型中,独立变量是干扰项(fan_foil)和目标项(fan_target)的固定效应,它们结合了刺激类型(foil或target)和扇形大小(2或4),以及一个固定效应stimulus_type,用于描述刺激是目标还是干扰项。变量fan_foil采用了sum-contrast编码:当干扰项的扇形为2时,fan_foil编码为-1;当扇形为4时,编码为1。如果行指的是目标句子,fan_foil编码为0。变量fan_target的编码方式相同。每个参与者(pp_num)和每个单词(fan_word)的随机截距和斜率也被包括在内,从而得到了以下模型:
(2)
将准确性模型拟合到实验室数据、在线数据以及合并数据后的后验分布可以在图1中看到。为了分析合并数据,我们在(2)中添加了一个表示数据收集类型的求和对比编码的固定效应。这些分布代表了每个预测变量的可能值范围,95%的可信区间(CIs)由水平线标记。如图所示,目标/干扰项(stimulus_type)的后验分布主要偏向正对数几率,而粉丝目标(fan_target)的后验分布几乎完全是负的。偏向负对数几率意味着随着风扇大小的增加(从风扇2到风扇4),参与者在检索任务中的准确性下降。在线数据中的粉丝干扰项(fan_foil)的后验分布也显示出了这一趋势。对于实验室数据,粉丝干扰项的分布集中在零附近,这表明风扇大小的增加对干扰项的影响很小。这可能是由于实验室收集的样本量较小。最后,目标/干扰项(stimulus_type)的对数几率后验分布偏向正值,表明参与者在识别目标句子时比识别干扰项时更准确。然而,由于两个数据集中的95%可信区间都包括了0,这种效应并不确定。图1在图查看器中打开
实验室数据(左)、在线数据(中)和合并数据(右)的准确性模型的后验分布。
3.2.2 反应时间
在拟合贝叶斯线性混合模型或计算RT数据的均值和标准误差之前,我们移除了快于200毫秒和慢于1分30秒的极端RT值,从而从在线数据集中移除了223个数据点(占1.03%)。实验室数据集的RT值没有受到这个阈值的影响。之后,我们移除了超出均值三个标准差的RT值。实验室和在线实验的测试阶段以及合并数据中收集的RT值的描述性总结显示在表3中。表格显示,风扇4的RT值通常比风扇2的RT值长。然而,这些效应在实验室数据的人条件在线上数据的地点条件中都很小。风扇2条件的值在人、地点和组合列中看起来是相同的。这是由于实验设计中一个类别被固定在风扇2,而另一个类别在风扇2和风扇4之间变化。因此,风扇2指的是风扇人和风扇位置都是2的试验。结果,对应于风扇2的试验子在人和地点上是相同的,导致描述性统计量也相同。表3. 实验1中实验室和在线数据收集以及两个数据集合合并后的平均反应时间(以毫秒为单位)的描述性总结,以及标准误差(SE)
我们使用了一个分层的贝叶斯模型来分析RT值,该模型对每个数据集分别进行了调整,以适应对数正态似然。除了因变量和似然的变化外,RT模型的结构与准确性模型相同。模型的自变量包括风扇大小的固定效应(fan_foil和fan_target)以及单独的条件,即目标/干扰项(stimulus_type)。这些固定效应的编码方式与准确性模型中的编码方式相同。模型还包括了按参与者(pp_num)和按项目(fan_word)的随机截距和斜率。我们运行了6000次迭代,其中前3000次被作为热身丢弃,使用了四个采样链。截距具有正态先验分布,均值=0,标准差=15。固定效应系数的先验也是正态分布的,均值=0,标准差=2。对于残差标准差和随机效应的标准差,我们使用了正态分布的先验,均值=0,标准差=2。最后,我们使用了LKJ分布来表示随机效应之间的相关性,均值=2。模型收敛时的最大Rhat值为1.002,表明链混合得很好,热身后没有报告发散的转换。我们拟合了以下模型,其中风扇对比嵌套在目标条件和干扰项条件中:
(3)
为了分析合并的数据集,我们使用了与(3)中相同的模型,但添加了一个表示数据收集类型的求和对比编码的固定效应。我们将迭代次数增加到8000次,并进行了4000次热身迭代,以提高模型收敛性并确保参数的有效样本量足够。RT模型的后验分布显示在图2中。95%的可信区间再次由水平线表示,分布中间的点是最估计值的均值。在实验室和在线数据收集的图表中,粉丝目标和粉丝干扰项的后验分布主要是正的,表明在目标条件和干扰项条件下,随着风扇大小的增加,反应时间也会增加。与之前一样,这种趋势在基于在线数据和合并数据集拟合的模型的后验分布中更为明显,这可能是由于样本量较大。目标/干扰项的后验估计分布总体上是负的,反映了由于目标被编码为1而干扰项被编码为-1,因此对干扰项的反应时间更长。由于分析的数据只包含正确响应,这表明目标被接受的速度比干扰项被拒绝的速度快。
图2在图查看器中打开
实验室(左)和在线(中)数据以及合并数据(右)的反应时间模型的后验分布。为了精确量化目标刺激中的风扇效应的证据,我们对数据进行了贝叶斯因子分析。回想一下,贝叶斯因子是两个模型的边际似然的比率,即它们揭示了一个模型生成数据相对于另一个模型的可能性(参见Schad, Nicenboim, Bürkner, Betancourt, & Vasishth, 2023; Wagenmakers, Lodewyckx, Kuriyal, & Grasman, 2010)。我们比较了(3)中提供的M1模型,但由于贝叶斯因子是在合并数据集上运行的,M1还包括了数据收集变量。作为比较基线的M0模型与M1相同,除了固定效应fan_target不存在,见(4)。
(4)
模型对所有共享参数具有相同的先验结构。对于M1中的fan_target,我们假设先验为HalfNormal(0, 0.025)。这是一个受限先验,假设目标的风扇效应应该是正的(即,更大的风扇会增加RT),但幅度很小(0.025在对数毫秒中对应于模型截距处的81毫秒效应)。回想一下,为了正确应用贝叶斯因子,需要受限先验,因为我们在探索数据可能由假设的模型生成的可能性,如果M1对关键参数有不现实的先验,那么两个模型之间的比较将不会揭示太多信息(参见Schad等人,2023年的讨论)。贝叶斯因子(BF)分析是在使用Savage–Dickey比率方法在四个链上收集20,000个样本(10,000次热身)创建的模型上进行的。我们发现BF为35.5。BF表示M1相对于M0的比率,因此,高于1的值表示支持M1模型的相对证据。
3.3 讨论
我们在实验1的准确性和RT数据中都发现了风扇效应,我们观察到实验项目的准确性下降和RT增加,尤其是在风扇尺寸较大的情况下。因此,我们成功地复制了荷兰语中的风扇效应,并且使用了一种不会向参与者提供关于学习项目风扇大小的信息的学习方法。这使我们能够使用相同的实验范式进行后续实验,其中包括语义相似性操作。
4 实验2—语义相似性操作
基于实验1中实验方法的验证,我们使用相同的设计创建了第二个实验。然而,在这个实验中,创建的关联风扇并不是由于在不同上下文中重复词汇项目。相反,我们使用了来自向量空间模型的预训练嵌入,并选择了语义相关的项来创建风扇。如果我们的观察是正确的,即skip-gram模型可以表示扩散激活记忆模型,那么我们预期预训练嵌入可以用来诱导风扇效应。这将表明激活在记忆中在语义相似的项目之间传播,并进一步支持我们将记忆的理性分析与向量空间模型的意义联系起来的假设。
4.1 方法
4.1.1 材料
为了创建语义相关项目的列表,我们使用了实验1中的项目,并从不同的fastText和Word2vec模型中检索了每个项目的20个最近邻居。我们最初比较了八个不同向量空间模型的最近邻居,但最终基于Grave, Bojanowski, Gupta, Joulin, & Mikolov (2018, CBOW) 和 Bojanowski, Grave, Joulin, & Mikolov (2017, skip-gram) 的两个不同fastText模型,以及Fares, Kutuzov, Oepen, & Velldal (2017, skip-gram)的Word2vec模型,构建了语义相关项目的列表。这三个向量空间模型都是在荷兰语语料库上预训练的。选择这些模型是因为在20个最近邻居中,它们提供了符合我们选择标准(人和地点词)的候选项,并且被母语者判断为与初始查询词非常接近。我们为人和地点类别分别创建了15个包含四个语义相似项目的列表,通过从生成的邻居列表中选择与实验1中的刺激的意义和类别相似的项。与实验1一样,人词使用了职业词,而地点词则选择了与介词in一起使用的词。如果复合词不是高度词汇化的(例如,filmhuis — cinema),则排除了这些词。在每个列表中,任何词与同一组中的其他词的成对相似性都必须高于与其他组的任何词。换句话说,组内相似性(通过余弦相似性测量)总是大于组间相似性。除了检查成对相似性比较外,我们还使用t分布随机邻居嵌入(t-SNE, Van der Maaten & Hinton, 2008)可视化了嵌入。图3和图4显示了选定的人和地点词的Word2vec嵌入的t-SNE可视化。这种可视化将更相似的嵌入显示在一起,相反,更不相似的嵌入显示得更远。在图中,根据我们之前计算的成对相似性,语义相关的词组以相同的颜色显示,可以看出它们主要形成了不同的组。图3在图查看器中打开
t-SNE可视化了选定的语义相似刺激的人类别的词嵌入。相同颜色的词属于同一组语义相似的刺激。大多数选定的组聚集在一起,表明词嵌入是相似的。图4在图查看器中打开
t-SNE可视化了地点类别的词嵌入。同样,相同颜色的词属于被选为彼此语义相似但与其他组不同的刺激组。为了创建新的刺激集,人和地点词是根据实验1中使用的模式组合的。一个包含24个句子的示例刺激集可以在表4中看到。与实验1中包含重复词汇项的句子(例如,“The captain is in the tower”和“The captain is in the swimming pool”,见表1)不同,实验2中的参与者学习了包含语义相关词汇项的句子(例如,“The captain is in the tower”和“The admiral is in the swimming pool”)。表4显示,模式中相同字母对应的词汇项在语义上是相关的,例如,admiral和kolonel都指代军事人员。下标数字指的是从语义相似的词汇列表中选出的不同项。在为每个参与者创建独特的刺激集之前,同一类别内列表的顺序以及列表内项目的顺序都被打乱了。表4. 实验2中使用的一整套目标刺激集。
表4. 实验2中使用的一整套目标刺激集
4.1 参与者、设计和程序
在这个实验中,我们使用了实验1中的PsychoPy脚本。我们从荷兰和比利时的成年荷兰语母语者(N = 100)那里通过Prolific在线收集数据,这些参与者的同意率非常高(95-100%)。所有参与者都提供了知情同意。实验包括与实验1相同的暴露、学习和测试阶段,参与者完成实验大约需要30分钟。
4.2 结果
由于这项实验的数据整体准确性很高,我们排除了准确率低于0.65的参与者,最终数据集中共有97名参与者。我们用于数据分析的模型与实验1中使用的模型相同。
4.2.1 准确率
在测试阶段进行的检索任务中记录的平均准确率显示在表5中。总体而言,参与者完成任务时的准确率很高,对于两个概念都位于位置2的句子,其准确率仅略高于其中一个概念位于位置4的句子。与实验1相比,这次实验准确率的提高可能是由于使用了独特词汇项而非重复词汇项的刺激句子,这可能有助于特定句子的检索。
4.2.2 反应时间
在将贝叶斯模型应用于反应时间数据之前,我们通过移除小于200毫秒和大于1分30秒的极端反应时间(RT)来清理数据,从而移除了64个数据点(占数据的0.4%)。随后,我们移除了偏离RT数据平均值三个标准差之外的RT。实验测试阶段收集的平均RT显示在表6中。RT的总体范围与实验1的在线版本相似,并且可以看到位置4在个人和位置条件下的整体增加。请注意,与实验1一样,位置2的值在个人、位置和组合列中是相同的。这反映了实验的设计,其中一个类别被固定在位置2,而另一个类别则变化,因此位置2的试验子集在个人和位置之间是相同的。
4.2.2 反应时间
在将贝叶斯模型应用于RT数据之前,我们通过移除小于200毫秒和大于1分30秒的极端RT来清理数据,从而移除了64个数据点(占数据的0.4%)。之后,我们移除了偏离RT数据平均值三个标准差之外的RT。实验测试阶段收集的平均RT显示在表6中。RT的总体范围与实验1的在线版本相似,并且可以看到位置4在个人和位置条件下的整体增加。为了对RT进行建模,我们使用了与实验1中相同的贝叶斯模型。模型的Rhat值接近1(最大Rhat = 1.004),并且在热身之后没有出现分歧性转换。图5左侧的图表显示了Fan Target(fan_target)的后验分布。Fan Target的对数概率主要是负值,分布下方的黑线表示的95%置信区间(CI)没有穿过0。这表明从位置2增加到位置4降低了参与者识别目标句子的准确率。Fan Foil(fan_foil)的后验分布的平均值接近0,这意味着我们在准确率测量中观察不到Fan Foil的效应。然而,Fan Foil的效应并不是这项实验的目标,而且在实验1的实验室数据中也发现了类似的结果。Target/Foil(stimulus_type)的后验分布是负值,表明参与者在识别Foil句子时的准确率低于识别目标句子时的准确率。
4.3 讨论
实验2的结果表明,当我们使用语义相关的项目创建联想性“风扇效应”时,这种效应仍然存在。我们可以在目标句子的准确率和RT中检测到风扇效应:参与者对更高“风扇”条件的反应准确率更低,RT也更长。在实验1和实验2中,我们都发现了明显的气扇效应:随着与一个概念的关联数量增加,参与者在检索相关上下文时变得缓慢且不那么准确。图6总结了两个实验的结果。在实验1中(红色),我们看到位置4条件的平均准确率下降(左侧面板),而位置4条件的平均RT增加(右侧面板)。我们在实验2中也观察到了相同的模式(蓝色)。这表明,即使关联是基于语义相似性而不是重复的词汇项,也可以观察到风扇效应,表现为准确率的轻微下降和RT的增加。
5 在意义向量空间模型中表示风扇效应
在实验1中,我们展示了即使在学习阶段没有关于风扇大小的明确指导,荷兰语中也存在经典的风扇效应。在实验2中,我们观察到,如向量空间模型所测量的语义相似性也会导致风扇效应。在本节中,我们详细展示了意义向量空间模型可以表示两个实验中的风扇效应。专注于skip-gram模型,我们在第2节中建立了词向量点积与扩散激活之间的等价关系,我们展示了在实验1的刺激上训练的模型正确预测了位置2与位置4的对比。然后我们展示了在同一模型上经过预训练嵌入微调后,也能预测实验2中由于语义相似性导致的风扇效应,这是记忆模型无法捕捉到的。注入这样的词汇知识还允许ACT-R模型预测实验2的风扇效应,尽管其拟合效果不如skip-gram模型。最后,我们展示了单个词对的点积可以预测RT的方差,超出了简单的位置2/位置4划分。
5.1 模型规格
我们使用五个负样本和噪声分布来训练skip-gram模型,负样本的噪声分布设置为默认值(也参见Mikolov等人,2013年)。我们的目标是展示,如果从零开始训练,这样的模型将显示实验1的风扇效应;如果在对预训练的词汇嵌入进行微调,它将显示实验2的语义风扇效应。因此,这个模拟补充了我们在第2节中关于skip-gram模型与ACT-R扩散激活记忆之间联系的理论主张。请记住,skip-gram模型的目标是给定目标词来预测上下文词。在我们的实验建模中,我们让skip-gram模型仅预测那些在不同物品之间可能有所不同的单词。以例子(5)为例,如果这是一个位置风扇被操纵的句子集合中的句子,那么我们将位置词(toren“塔”)视为目标词。人名词(kapitein“队长”)被视为上下文词,而目标词前的冠词(例如,de“the”)也是另一个上下文词。
模型中没有包含其他单词,因为这些单词对所有物品来说都是相同的,因此将它们作为额外的目标-上下文词对添加进来不会影响模型的结果。在实验1的训练开始时,我们通过从均匀分布(?1, 1)中随机抽取每个向量值来初始化目标词和上下文词。这种随机初始化反映了Anderson和Reder(1999年)等人的假设,即在风扇实验中,人名词和位置词仅被用作记忆占位符。对于实验2,我们使用了Fares等人(2017年)预训练的荷兰语word2vec嵌入作为目标词,即如果人名风扇被操纵,则使用人名词嵌入;如果位置风扇被操纵,则使用位置词嵌入。上下文词也是通过从均匀分布(?1, 1)中随机抽取来初始化的。所有向量的维度都是100,这与实验2中使用的预训练嵌入的维度相同。
训练使用了Adam优化器中实现的自适应反向传播算法,学习率(lr)为0.003。训练更新了实验1中skip-gram模型中的目标词和上下文词向量。对于实验2,只有上下文词向量被更新(预训练的嵌入在训练阶段保持不变)。我们使用三种不同的种子对模型进行了训练,并对结果进行了平均。训练一直进行到模型几乎完美地学会了任务(目标-上下文词对的错误率低于1%)。实验1需要24个训练周期,而实验2需要65个训练周期。对于实验1,只使用了一个刺激列表,因为特定的词汇规范(即人和位置之间的关系)对模型来说并不重要,因为所有向量都是随机初始化的。对于实验2,我们为每个刺激列表训练了100个单独的skip-gram模型。需要明确的是,我们的目标并不是展示skip-gram模型能够完美或几乎完美地学习风扇实验的内容,这是可以预期的。然而,我们确实声称所得到的模型是对人类记忆的一个很好的近似。
5.2 建模结果
正如我们在第2节中看到的,skip-gram模型与pmi有关,而pmi根据对记忆的理性分析,又与扩散激活有关。为了在skip-gram模型中使用目标词和上下文词向量来近似pmi,适用以下方程,其中n是负样本的数量,t是目标词,c是上下文词,v_t和v_c分别是模型中的目标词和上下文词向量表示(详见Levy & Goldberg, 2014)。
我们现在利用这种联系,将训练好的skip-gram模型与我们在实验1和实验2中的发现联系起来。
5.2.1 实验1
我们首先关注实验1中风扇2和风扇4的激活差异。在随机初始化的向量训练完成后,我们根据方程(6)从模型中收集pmi。我们计算所有目标-上下文词对的点积,并对其进行偏移(因为模型使用了五个负样本)。对于风扇2和风扇4的情况,计算方法是相同的。如果我们对skip-gram向量模型与记忆的理性理论之间的联系是正确的,那么这些值应该代表了ACT-R记忆模型中的扩散激活。我们确实发现两种情况的点积存在预期的差异。我们看到风扇2的平均偏移点积(均值=1.73,标准差=0.15)高于风扇4(均值=1.22,标准差=0.06)。根据ACT-R的理论,偏移点积可以与行为测量结果相关联(见公式(7))。这些是ACT-R中的标准链接函数(Anderson, 2007),其中β是缩放参数,θ是检索阈值,ε是噪声。v_t是块的(扩散)激活,在我们的案例中由单词对的偏移点积表示。由此可知,预测风扇2的项目所需的时间更短,准确率更高。这与我们的实验发现一致。
正确的预测是通过几个推理步骤得出的:(i)我们观察到了记忆的扩散激活模型与skip-gram模型之间的形式联系;(ii)我们训练了skip-gram模型并从中收集了代表扩散激活的pmi值;(iii)我们假设了激活与ACT-R中的行为测量结果(准确率和检索时间)之间的标准链接函数。
5.2.2 实验2
既然我们已经建立了skip-gram模型与扩散激活之间的联系,并且已经在实验1中得到了验证,我们可以进一步推进我们的建模,以捕捉实验2中的语义相似性效应。回想一下,在这种建模中,我们使用预训练的向量作为目标向量,这些向量代表词汇知识,并随机初始化上下文向量,然后我们在风扇实验上训练后者,希望能揭示语义风扇效应。首先,我们检查在任何训练之前,即仅在预训练的嵌入中,刺激列表中是否不存在风扇效应。我们看到风扇2和风扇4的平均点积几乎没有差异(对于位置风扇:风扇2的平均值=1.64,标准差=0.44;风扇4的平均值=1.65,标准差=0.29;对于人名风扇:风扇2的平均值=1.67,标准差=0.40;风扇4的平均值=1.65,标准差=0.25)。我们可以确信,在预训练过程中,我们没有无意中创建出风扇2元素的激活值高于风扇4元素的刺激列表。在训练之后,模型更新了上下文词向量以学习风扇实验中的目标-上下文词对,我们观察到点积值发生了明显变化。风扇2的平均点积为2.96,风扇4的平均点积为2.79(对于位置风扇:风扇2的平均值=2.97,标准差=0.09;风扇4的平均值=2.81,标准差=0.06;对于人名风扇:风扇2的平均值=2.95,标准差=0.12;风扇4的平均值=2.78,标准差=0.06)。也就是说,经过实验刺激的训练后,skip-gram模型显示风扇2的扩散激活更高,这与实验2中的预测一致,即风扇4的反应时间更长,准确率更低。风扇2和风扇4之间的差异比实验1中的要小,这与反应时间和准确率的差异较小的事实相符。为了进一步探索模型的预测,我们收集了实验中使用的所有刺激列表中各个目标-上下文词对的skip-gram点积。我们探讨了是否可以直接使用个别词对的值来预测实验2中的反应时间(RT),以及它们与仅编码2-4风扇操纵的模型相比如何。为了理解点积对RT的影响,我们对目标数据进行了子集处理(即排除了干扰项)。对于这些数据,我们首先检查当根据点积值将数据分成两组时,较小的点积是否与较长的RT相对应,见图7。接下来,我们构建了一个具有偏移对数正态似然的层次贝叶斯模型,并使用贝叶斯因子分析来研究这个模型的证据。该模型有一个固定效应:dot_product,来自上述描述的skip-gram模型;还有受试者随机截距,以及词随机截距和点积斜率。我们使用HalfNormal(0, 0.025)作为分布函数,与之前的BF分析相同,但这次是在负值侧,反映了较高的点积会减少RT的预期。我们保持了第3节中描述的反应时间模型中的其他参数的先验结构。我们计算了支持该模型的证据(),与基线模型()进行了比较,后者没有dot_product固定效应。我们得到的支持dot_product模型的证据为10.7,这是一个中等到强的证据。这个支持dot_product模型的证据强度高于第4节中介绍的仅包含风扇参数的模型的贝叶斯因子。
图7显示了按点积值划分的实验2的平均RT和标准误(SE RT)。2.83是中位数点积值,左侧和右侧的条形图分别显示了点积小于中位数和大于中位数的那些词对的均值和SE RT。为了进一步探讨点积与风扇2/4对比的关系,我们考虑了一个具有偏移对数正态似然的模型,并有两个固定效应:dot_product,来自上述描述的skip-gram模型;以及fan_target,其中目标风扇4和风扇2的对比编码分别为+1和?1。使用R中的公式表示法,我们可以指定模型如下:
模型的先验结构与其他贝叶斯模型相同(见第3节)。图8左侧的 posterior predictive checks 显示了模型对RT分布的合理近似。图9左侧的固定效应的后验分布总结了dot_product的预期负面影响,其95%置信区间排除了零(均值=?0.047,95%置信区间=[?0.091, ?0.002]。
图8显示了使用skip-gram点积(左)和使用离散化词向量进行ACT-R扩散激活估计的模型近似(右)的后验分布。通过贝叶斯因子分析进一步研究了dot_product和fan_target的作用。我们比较了(作为固定效应的word-pair dot_product)与(作为固定效应的fan_target)。两个模型都有相同的仅有截距的随机效应结构。我们假设固定效应遵循先验分布Normal(0, 0.1)。我们为两个模型各收集了10,000个样本(其中5000个样本用于热身),并使用桥接抽样来估计贝叶斯因子,以查看数据为提供了多少支持该模型的证据。我们得到的支持该模型的证据为10.7,这是一个中等到强的证据。这个支持dot_product模型的证据强度高于第4节中介绍的仅包含风扇参数的模型的贝叶斯因子。图7显示了按点积值划分的实验2的平均RT和标准误。2.83是中位数点积值,左侧和右侧的条形图分别显示了点积小于中位数和大于中位数的词对的均值和SE RT。
图8左侧显示了skip-gram+fan模型,见公式(8)。右侧显示了ACT-R+fan模型,见公式(12)。图9显示了使用skip-gram点积的模型的后验分布和使用离散化词向量进行ACT-R扩散激活估计的模型近似。通过贝叶斯因子分析进一步研究了dot_product和fan_target的作用。我们比较了(作为固定效应的word-pair dot_product)与(作为固定效应的fan_target)。两个模型都有相同的仅有截距的随机效应结构。我们假设固定效应遵循先验分布Normal(0, 0.1)。我们为两个模型各收集了10,000个样本(其中5000个样本用于热身),并使用桥接抽样来估计贝叶斯因子,以查看数据为该模型提供的相对证据。我们得到的支持该模型的证据为10.7,这表明该模型比仅包含风扇参数的模型有中等到强的支持。尽管这个证据可能看起来不是很大,但我们应该记住,这个证据是在一个专门设计来研究风扇效应并最小化风扇2-风扇4对比之外的语义相似性差异的实验中发现的。此外,我们还发现,与仅包含基线模型的比较相比,支持dot_product模型的证据是存在的;无论在哪个比较中发现的任何支持dot_product的证据,都必须归因于语义相似性对反应时间的影响。由于ACT-R在检索方面至少是通过扩散激活来工作的,并且它只使用离散的线索——在我们的案例中,是线索的匹配或不匹配——我们需要将值二值化。我们通过对向量逐元素使用符号函数来实现这一点(即,对于向量中的每个维度,如果其值为正,则编码为+1,否则编码为-1)。然后,我们使用ACT-R的扩散激活公式(Anderson & Lebiere, 1998)来计算扩散激活。这里的log_size是内存的大小,通常设置为一个较大的正数,以确保扩散激活始终是非负的。
这个方程反映了作为pmi近似的扩散激活(见(1)),并在(10)中重复。具体来说,需要某个信息块的概率通常被认为是我们内存中持有的信息片段的数量的倒数(见(11[a])。公式(11[a])在假设每个信息片段被需要的概率相等的情况下提供了需要该信息块的概率。内存大小通常不是通过实验确定的,而是作为一个自由参数设置的。分子在(11[b])中显示,其中fan是携带该线索的信息片段的数量。(11[c])展示了在这些假设下从pmi推导出(9)的过程。
在我们的ACT-R语义相似性实验建模中,我们将每个维度都视为一个线索,这样每个单词就有100个线索。正如预期的那样,我们在实验2中观察到不同fan的ACT-R激活存在差异:位置fan:fan 2的平均值为128.6,标准差=1.6;fan 4的平均值为125.2,标准差=1.1;人物fan:fan 2的平均值为125.4,标准差=1.8;fan 4的平均值为122.2,标准差=1.1。fan 2的更高激活值表明,将词汇知识注入ACT-R确实也能捕捉到由于语义相似性引起的扩散激活效应,特别是fan 2/fan 4之间的对比。为了进一步探索这些效应,我们使用离散化的值计算每个单词的ACT-R扩散激活,并在一个带有偏移对数正态似然的贝叶斯模型中使用这些估计值,该模型适配于反应时间(RTs)。该模型有两个固定效应:ACT-R扩散激活和fan操作,具有与(12)中相同的随机效应结构。因此,这个模型与我们用来探索点积对RTs影响的模型相似。使用R公式表示法,我们可以将模型分解为:
后验预测检验在图8的右侧进行了可视化,显示ACT-R模型与skip-gram模型在拟合RT分布方面表现相当好。我们主要关注固定效应的后验分布,这些在图9的右侧图中进行了总结。该图表明,由skip-gram向量提供的ACT-R激活效应并没有超出fan操作的效果。可以说,这是因为我们对值进行了离散化,这导致了关于语义相似性的信息损失。图9中两个图的比较表明,将扩散激活直接与点积联系起来比这种方法更可取,因为后者丢失了信息。最后,我们还使用了桥接抽样进行了贝叶斯因子分析,将前一节中介绍的模型与使用离散化值的ACT-R激活的模型进行了比较,这两个模型具有相同的仅截距的随机效应结构和相同的固定效应先验。这种比较强烈支持了后者。因此,虽然将词汇知识注入ACT-R是可能的,并且可能足以捕捉实验2中的二元fan 2/fan 4对比,但有证据表明直接使用skip-gram模型的点积与扩散激活之间的形式联系更为合适。
6. 总讨论
在这项研究中,我们建立了人类记忆模型中的扩散激活与向量空间模型中的语义相似性之间的正式联系。此外,我们在实验1中复制了经典的fan效应(参见Anderson, 1974; Anderson & Reder, 1999),并在实验2中显著扩展了这一范式,证明了当扩散激活由语义相似性触发时也可以观察到fan效应。我们将这一新实验的发现解释为表明,fan效应不仅仅适用于单词完全相同的任务。我们的实验1和之前的研究可以被视为研究语义相似性对回忆作用的极端情况,其中只考虑了最高程度的语义相似性,即完全相同。正如实验2的结果所示,即使在单词“仅”具有高语义相似性但不完全相同的情况下,fan效应仍然存在。因此,我们的主要发现可以总结如下:我们在fan实验中提供的证据表明,扩散激活中的线索不仅仅是概念本身,而是概念共享的不可观察的语义特征集合。我们的理论和计算建模结果表明,测量概念与这些特征亲和力的向量空间特别适合捕捉这种更普遍的扩散激活视图。我们的结果表明,通过成功预测行为数据,向量空间模型在围绕人类语言使用的实验中具有心理学上的有效性。我们的发现支持了Hollis(2017)首次提出的分布语义模型与ACT-R之间的直接和理论上的联系,并且Günther等人(2019)对此进行了更广泛的讨论。Hollis指出,连续词袋(CBOW)模型(Mikolov, Chen, Corrado, & Dean, 2013)中使用的学习算法近似了ACT-R中的检索机制,特别是通过需求概率的概念,表明基于CBOW的估计与词汇决策和命名时间的行为测量相关。我们的研究将skip-gram嵌入的结构与记忆的理性分析直接对齐,后者使用了fan效应来支持ACT-R的扩散激活机制。这使我们能够更直接地测试语义相似性如何在ACT-R框架内塑造记忆激活。Günther等人(2019)进一步支持了这种方法,他们认为基于预测的模型,如skip-gram,当它们整合了像pmi这样的度量时,是认知上合理的意义表示,因为它们捕捉了上下文依赖性。我们的结果为越来越多的研究提供了支持,表明语义相似性影响语言中的记忆检索(J?ger等人,2017;Laurinavichyute & von der Malsburg, 2022;Smith & Vasishth, 2020;Van Dyke, 2007)。使用基于向量的模型在其他记忆框架中也取得了成功,例如MINERVA2(Hintzman, 1984),当与word2vec模型结合使用时,可以捕捉到各种错误识别的发现(Chang & Johns, 2023)。此外,我们的发现表明,荷兰语中也可以观察到fan效应,这增加了先前的文献,这些文献证明了fan效应并不特定于某种语言环境(除了英语之外,还在西班牙语(Gómez-Ariza & Bajo, 2003;日语(Hirai, Hiwatashi, Kikuchi, & Kamijo, 1987)和德语(R?sler, Heil, & Glowalla, 1993)中得到了实验验证)。过去也有其他尝试将ACT-R和向量空间模型联系起来。在心理语言学中,Smith和Vasishth(2020)以及Meghdadi等人(2026)将两者结合起来研究词汇和句子处理。在认知科学中,全息声明记忆模型(Kelly, Arora, West, & Reitter, 2020)被用来建模fan效应等。与我们的分析不同,这些方法用完全新的账户替换了ACT-R中现有的记忆模块,特别是扩散激活。相比之下,我们展示了如何利用理性分析与pmi之间的联系,以及pmi与skip-gram模型的点积之间的联系,以正式和原则性的方式将理性分析和向量空间模型联系起来。简而言之,我们没有必要用新的属性和参数来丰富记忆模块。相反,有充分的理由将skip-gram模型视为理性分析的另一种实现,它可以提供所有词汇项之间的丰富扩散激活。直观地说,没有丰富语义空间的框架(如经典的ACT-R)经常被丰富的一个明显原因是这些模型使用的线索过于粗糙。这限制了它们预测fan效应的能力,超出了单词身份之外。另一方面,skip-gram模型将单词分解为一个高维向量,其精细的表示允许它捕捉由于单词身份和单词相似性引起的fan效应。正如我们所看到的,使用更精细的线索在ACT-R中确实改善了模型的预测,并且允许ACT-R模型捕捉到实验2中的fan对比。然而,使用具有连续值的skip-gram向量及其点积作为扩散激活的估计在理论上是合理的,并且似乎是一个更好的表示方法,因为它也解释了实验2中的RT方差。我们研究的一个关键部分是使用pmi,因为它在数学上适合ACT-R模型,并提供了更可解释和直接的语义相似性度量。重要的是,pmi之前已经被证明在捕捉不同任务中的语义相似性方面表现得与潜在语义分析(LSA, Landauer & Dumais, 1997)一样好或更好(Turney, 2001;Van Maanen等人,2010)。我们应该注意,对于fan效应还有其他几种解释,这些解释并不假设效应是通过扩散激活中的线索共享产生的。这些解释包括典型性(Silber & Fisher, 1989)、情境模型的合理性(Radvansky & Zacks, 1991)到记忆抑制(Anderson & Spellman, 1995)。仍有待验证的是,这些解释是否可以扩展到我们实验2中的fan效应发现。这特别涉及到情境模型的合理性,这些模型认为更大的fan会导致不太合理的情境。这是因为在经典的fan范式中,大于1的fan代表一个人同时处于多个位置(或者一个位置同时容纳多个人)。特别是在我们的实验2中,尽管我们使用了唯一的人-位置对,但我们仍然发现了fan效应。据我们所见,这一发现无法通过情境模型的合理性来预测。我们研究的局限性在于,虽然我们使用向量空间模型中的最近邻居来为实验2创建语义相关项的组,但fan操作在某种程度上仍然是人为的。分组被限制在两个fan级别(2或4),而在自然语言使用中,概念通常有更广泛和更多变的关联范围,从而导致更显著的操纵,即使是隐性的。此外,我们范式中使用的简短简单句子是语言用户在自然语言中遇到的复杂句法和上下文结构的简化版本。然而,应该强调的是,实验2是第一次使用自然语言的变化来引发fan效应。此外,我们的发现支持了这样一个观点,即语义相似性,而不是实验1中使用的经典fan效应,解释了实验2中的行为效应。这表明,尽管设置相对人为,但语义关联驱动了fan效应。进一步的研究方向是将这一范式扩展到大型语言模型(LLMs)。在我们当前的研究中,我们证明了从skip-gram模型派生出的语义表示可以与人类记忆有意义地联系起来。skip-gram模型基于一个被很好理解的数学框架,为使用LLMs的更复杂、基于上下文的嵌入提供了基础。然而,与向量空间模型不同,LLMs在高度复杂的架构中运行,其中内部机制更加不透明。Wang等人(2025)特别指出了LLMs中语义网络与人类之间的可比性,并发现了在灵活性和互连性方面的显著差异,以及基于语义流畅性任务的性能。这些结构差异可能有助于解释LLMs中观察到的fan效应结果的变异性,正如Roberts等人(2024)所报告的。总之,我们的研究表明,“风扇效应”不仅存在于单词身份的识别中,而且在记忆检索的研究中也需要考虑到检索线索应该是语义特征。这直接将记忆的理性分析与自然语言处理(NLP)中关于词汇分解的研究联系了起来(例如,参见Korchinski、Karkada、Bahri和Wyart在2025年的理论性研究)。进一步探讨这两者之间的联系将对这两个研究领域都有益处。
7 结论
本研究考察了荷兰语中的“风扇效应”以及该效应在基于向量空间模型生成的语义相似刺激中的表现。在实验1中,我们使用了一种调整后的学习方法验证了在荷兰语中观察“风扇效应”的可能性,该方法并未向参与者明确展示“风扇效应”的操作过程。在实验2中,我们通过基于语义相似性的关联方式扩展了这一范式,证明了即使关联是通过自然语言推断出来的,而不是明确学习得到的,“风扇效应”仍然存在。综合来看,我们的发现表明,记忆中的关联干扰不仅限于重复的刺激,还源于语义结构。这表明,语言中的记忆检索对于需要检索的概念之间的潜在关系非常敏感,即使这些关系并非通过明确的学习获得的。未来的研究可以探讨这种干扰如何影响更复杂语言环境中的记忆检索,以及它如何与话语结构、个体记忆能力差异或可预测性等因素相互作用。
利益冲突
作者声明没有利益冲突。
材料复制许可
本研究中使用的所有材料均为原创。
注释
1. 图2中的后验分布是以对数转换后的反应时间(RT)尺度显示的。描述性统计数据在表3中提供,以帮助解释结果。
2. 模型训练和数据分析的代码可以在github上找到:https://github.com/jakdot/fan-similarity.git。
3. 我们将这篇文章纳入建模中,因为其表示方式可能因项目而异——对于某些项目可能表现为“de”(阳性性别),而对于其他项目则可能表现为“het”(中性性别),详见第3节。
4. 在实验1中,我们还尝试了较小的向量维度(大小为30和50),但这并未影响实验结果。
5. 一位匿名审稿人指出,ACT-R模型也支持部分匹配,这使得建模者能够在检索过程中实现分级相似性惩罚。然而,部分匹配通常模拟的是线索与信息块之间的分级匹配程度,而不是激活的扩散。后者才是捕捉“风扇效应”的关键机制,因为它根据“风扇”的大小将激活分布到竞争的记忆信息块中。
数据可用性声明
本研究使用的数据、材料和分析脚本可在OSF上获取:
https://osf.io/5hw3n