填空、频率、意外性还是合理性？对解决局部歧义的预测因素的比较分析

《Cognitive Science》：Cloze, Frequency, Surprisal, or Plausibility? A Comparative Analysis of Predictors for Local Ambiguity Resolution

【字体：大中小】 时间：2026年05月01日 来源：Cognitive Science 2.4

编辑推荐：

　　摘要本研究通过考察动词/结构偏见、填空概率、惊讶程度和合理性对花园路径句子（garden-path sentences）处理过程的影响，探究了其背后的认知机制。我们采用自我控制阅读的方式，并结合是非判断题来分析11种结构各异的模糊性和非模糊性句子。研究结果表明，填空概率是预测

　　摘要

本研究通过考察动词/结构偏见、填空概率、惊讶程度和合理性对花园路径句子（garden-path sentences）处理过程的影响，探究了其背后的认知机制。我们采用自我控制阅读的方式，并结合是非判断题来分析11种结构各异的模糊性和非模糊性句子。研究结果表明，填空概率是预测处理难度最可靠的指标，它显著影响了反应时间和回答准确性。具体而言，由填空得分所反映的错误分析的可能性，预示着错误解释的持续性和重新分析的难度。相比之下，动词偏见、惊讶程度和合理性产生的影响较弱或不一致，只有合理性在准确性数据中显示出有限的交互作用。这些发现表明，在解释句法上模糊的输入时，理解者严重依赖上下文线索，而重新分析的成功不仅取决于结构偏好或词汇的可预测性，还取决于初始错误分析的总体可能性以及预期解释的可能性。

1 引言

像（1）这样的花园路径句子属于心理语言学研究中研究最为广泛的现象之一。它们暂时性的模糊性使它们成为探索句子处理各个方面的宝贵工具，例如语言表征的“足够好”属性（Christianson, Hollingworth, Halliwell, & Ferreira, 2001; Huang & Ferreira, 2021; Slattery, Sturt, Christianson, Yoshida, & Ferreira, 2013）、重读和重新分析的过程（Christianson, Dempsey, Tsiola, Deshaies, & Kim, 2024; Paape & Vasishth, 2022）、信息检索和干扰（Fujita & Vasishth, 2024; Martin & McElree, 2018），以及可预测性和惊讶程度的作用（Huang et al., 2024; van Schijndel & Linzen, 2021）。

（1）当安娜给婴儿穿衣服时，婴儿在婴儿床里玩耍。在句子（1）中，“dressed the baby”这一部分存在局部模糊性。它可以被解释为一个及物动词后跟宾语的组合（当安娜给婴儿穿衣服……），或者，也可以被解释为一个反身动词和第二个从句的主语（当安娜给自己穿衣服时，婴儿在玩耍……）。读者最初倾向于采用及物动词的解释，但随后被消歧动词“played”所否定，因为如果保持原始解析，这个动词没有主语。因此，读者被迫修正他们的初始分析并重新解释句子。这种重新分析过程已被证明会影响各种行为测量指标。消歧部分通常会在自我控制阅读中引发更长的反应时间（RTs）和更长的眼动指标（Christianson et al., 2001; Christianson, Luke, Hussey, & Wochna, 2017; Christianson et al., 2024; Ferreira & Clifton, 1986; Ferreira & Henderson, 1991; Slattery et al., 2013），以及电生理反应，如P600成分（Gouvea, Phillips, Kazanina, & Poeppel, 2010; Osterhout, Holcomb, & Swinney, 1994; Qian, Garnsey, & Christianson, 2018）。此外，使用经颅直流电刺激针对与执行控制相关的大脑区域的实验也显示了显著效果（Hussey, Ward, Christianson, & Kramer, 2015）。处理困难也体现在离线测量中，包括回答准确性或图片选择（Christianson et al., 2001; Malyutina & den Ouden, 2016）。例如，即使尝试重新分析后，读者也常常无法抑制最初的错误解释，导致对理解问题的回答错误或句子改写错误（Christianson et al., 2017; Huang & Ferreira, 2021; Patson, Darowski, Moon, & Ferreira, 2009）。处理速度的减慢程度（Huang et al., 2024）以及抑制初始错误分析的成功率（Christianson et al., 2001; Christianson & Luke, 2011; Christianson et al., 2017; Fujita & Cunnings, 2020）在不同类型的花园路径句子中差异很大。正如Huang等人（2024）所展示的，不仅在不同类型的花园路径句子之间（即具有不同句法结构的句子），即使在同一类型的句子中（即具有相同句法结构但内容不同的句子），消歧部分的处理速度减慢也存在显著差异。响应准确性也存在类似的变化。例如，当参与者回答针对初始错误分析的问题时（例如对于句子（1）的“Did Anna dress the baby?”），准确率从大约80%（如句子（2））到低至20%（如句子（3）不等（Christianson et al., 2017））。这表明某些花园路径结构更容易产生错误分析，或者更难以抑制这种错误分析。

（2）出版商联系了编辑，但作者拒绝修改书的结局。
（3）球员投球干扰了对方队伍。此外，花园路径句子的最终表示甚至可能在初始模糊区域的分析范围之外也被破坏（Chromy, 2022; Ceháková & Chromy, 2023）。有时，模糊区域根本就没有被正确分析（Christianson, Williams, Zacks, & Ferreira, 2006; Ceháková & Chromy, 2025; Hussey et al., 2015; Malyutina & den Ouden, 2016）。句子的其他部分也可能被错误分析，最终的表示可能变得支离破碎，由多个相互排斥的小树状结构组成。这种破坏的性质和程度似乎因花园路径结构的类型而异。例如，在像（3）这样的句子中，即使是消歧动词（interfered）也经常被错误分析——这在像（1）这样的句子中通常不会出现（Ceháková & Chromy, 2025）。进一步的证据来自Fujita（2024），他表明在某些非常复杂的花园路径结构中，如（4），模糊区域的预期解释往往根本不会出现。相比之下，稍微简单一些的句子——如（5）——更有可能被正确分析。

（4）当朋友们打电话给那个女人时，Rebecca掉落了一个酒瓶，并且用一块碎玻璃割伤了自己。
（5）当朋友们打电话给那个女人时，Rebecca掉落了一个酒瓶，并且用一块碎玻璃割伤了自己。花园路径句子的处理差异及其导致的表示结果仍然是一个长期存在的问题。尽管先前的研究将这些差异与一系列语言属性联系起来，但尚未找到明确的答案。不同花园路径结构之间的响应准确性差异表明，这些句子的句法结构可能起着作用。例如，Dempsey等人（2020, 2024）的一系列实验集中在句法适应上，表明人们在处理语言输入时会跟踪结构频率，并依赖这些频率来消除花园路径句子的歧义。同时，Huang等人（2024）记录的项间变异性指向了非句法因素的影响，如合理性或频率。在接下来的部分，我们将回顾几项研究，这些研究关注可能影响花园路径句子处理的因素，以及它们与以下方面的关系：（a）理解者经历花园路径效应的可能性（即在什么条件下理解者会遇到花园路径效应），以及（b）从初始错误分析中恢复的难度（即什么使得重新分析更成功或更不成功）。我们将他们的发现与Huang等人（2024）的最新研究进行比较，后者使用大量的参与者和刺激样本进行了测试，但没有发现这些因素对局部歧义处理有一致的影响。最早与花园路径效应存在相关的因素之一是句法结构。根据Frazier & Fodor（1978）和Frazier & Rayner（1982）的观点，错误分析的发生是因为解析器倾向于选择最简单的句法结构（即需要最少节点的结构）。当某个区域的正确分析在句法上比错误分析更复杂时，就会产生错误分析。相反，当正确分析在句法上简单时，花园路径效应会减弱或可能根本不会发生。Ferreira & Clifton（1986）或Ferreira & Henderson（1991）也报告了类似的结果。至于从初始错误分析中恢复的难易程度，一些研究表明，关键因素不是修复错误分析所需的句法操作的数量或类型，而是诊断初始解析中出了什么问题的难度（Fodor & Inoue, 1994, 1998）。特别是，当消歧区域提供了关于如何重新解释句子的信息线索时，恢复会变得更加容易——例如有助于识别正确附着位置的形态句法特征。相反，如果消歧仅仅表明了一个错误而没有提供重新分析的线索，恢复就会变得更加困难（Fodor & Inoue, 2000）。消歧的信息量也可能取决于其语义和语用属性（Martin & McElree, 2018）。花园路径效应的存在和程度的另一个解释与频率/结构偏见有关（Garnsey, Pearlmutter, Myers, & Lotocky, 1997; Trueswell, Tanenhaus, & Kello, 1993; Trueswell, 1996）。例如，在像（6）这样的句子中，消歧区域的RTs更长，因为模糊动词经常带有名词短语补语（因此理解者更容易对其进行错误分析），而在像（7）这样的句子中，动词更倾向于使用句子补语。换句话说，当错误分析与动词的偏好不一致时，花园路径效应不太可能发生，即使它在结构上更简单。

（6）学生忘记了解决方案在书的后面。
（7）学生希望解决方案在书的后面。据我们所知，目前还没有研究探讨过频率对响应准确性的影响，而这将有助于了解重新分析的成功率和最终表示的性质。另一个可能影响花园路径句子处理的因素是合理性。几项研究表明，当模糊区域的潜在错误分析描述了一个不合理的场景时，花园路径效应会减弱或消失。例如，Trueswell、Tanenhaus和Garnsey（1994）指出，像（9）这样的句子——其中错误分析（即房间在寻找某物）是不合理的——在消歧区域不会产生延长的反应时间（RTs）。相比之下，像（8）这样的句子，其中错误分析更合理，会引发更长的阅读时间。

（8）警察搜查的小偷非常令人不快。
（9）警察搜查的房间非常不愉快。
（9）警察搜查的房间非常不愉快。Nakamura和Arai（2016）以及Qian等人（2018）通过逐项分级分析也记录了类似的效应，他们发现更合理的初始错误分析会导致更大的处理难度，这反映在消歧区域的反应时间（RTs）更长上。另一方面，Garnsey等人（1997）表明，只有当模糊区域对两种潜在解释（初始错误分析或预期分析）的倾向相等时，合理性才会影响句子处理。换句话说，合理性与动词偏见相互作用：当模糊区域强烈偏向一种解释时，后续解释的合理性并不会显著影响消歧难度。初始错误分析的合理性也影响句子重新分析的成功。例如，在像（10）这样的句子中，潜在的错误分析导致了一个不太可能的场景（例如，男人在猎鸟），参与者对针对潜在错误分析的问题的回答错误较少（例如，男人是否猎鸟/飞机？），而在更合理的句子（11）和（12）中则较少（Malyutina & den Ouden, 2016）。

（10）当男人在猎鸟时，飞机飞过了树林。
（11）当男人在猎鹿时，鹿跑进了树林。
（12）当男人在猎鹿时，他在动物园里踱步。有趣的是，（12）也比（11）引发了更少的错误回答。这两个句子都容易被错误分析，但（12）中的错误分析与句子的其余部分相矛盾（因为我们通常不在动物园里猎动物）。这使得重新分析变得更容易，并减少了初始错误分析持续或与预期分析混合的可能性（Christianson等人，2001；Malyutina & den Ouden，2016）。然而，关于错误分析的合理性对句子最终表示的影响的证据是混合的。例如，Roberts和Felser（2011）的一项研究表明，初始错误分析的不合理性提高了重新分析的成功率（通过更高的响应准确性来衡量），但这仅适用于特定类型的花园路径句子。同样，Nakamura和Arai（2016）仅在模糊区域较长的句子中观察到合理性的影响：当模糊区域较短时，参与者无论合理性如何都能正确回答，但对于较长的区域，合理的错误分析会导致更多的错误。其他相互矛盾的研究结果来自Qian等人（2018年）的研究，他们发现，对于针对初始错误分析的问题的回答准确性，并不会受到初始错误分析本身合理性（例如，一个男人猎了一只鹿）或错误分析在句子其余部分上下文中的合理性（例如，一个男人猎了一只跑进树林的鹿）的可靠影响。这些效应仅在某些句子类型和部分实验中观察到。然而，Qian等人（2018年）确实发现，当整个由“花园小径”句子描述的事件（在男人猎鹿的同时，鹿跑进了树林）被认为更合理时，回答准确性会降低。但这可能是由于实验设计造成的，因为用于判断合理性的问题（“这个男人猎鹿的可能性有多大？”）基本上是一个表述不同的错误分析问题（“这个男人猎鹿了吗？”），这可能导致这两个测量结果之间存在高相关性。最近，有几项研究探讨了“花园小径”句子中处理速度减慢的存在和程度是否可以通过消歧区域的惊讶程度来解释（Huang等人，2024年；van Schijndel & Linzen，2021年）。再次，研究结果并不一致。虽然大型语言模型（LLM）在关键区域的惊讶程度估计可以预测“花园小径”效应的存在和方向，但它们大大低估了其程度。此外，惊讶程度估计未能捕捉到不同类型“花园小径”句子之间或同一结构类型内项目之间的处理难度差异。这些结果表明，其他机制——如重新分析——可能在消歧点对处理难度有所贡献。据我们所知，还没有研究调查下一个词的惊讶程度对回答准确性的影响。例如，尽管Huang等人（2024年）收集了回答准确性数据，但他们没有将其与惊讶程度值相关联进行分析。上述总结当然不是决定性的。还有其他一些因素被假设会影响“花园小径”句子的处理速度和回答准确性。其中包括句子外的上下文（即，前面的句子在语用上使局部模糊的句子倾向于某种特定的解释），这可能会加强或削弱上述的“花园小径”效应（Altmann, Garnham, & Dennis, 1992年；Christianson & Luke, 2011年）。从“花园小径”中恢复的容易程度也可能与更认知性质的因素有关。已有文献记录表明，重新解释和抑制初始错误分析的成功取决于自该分析被记住以来的时间长度：延迟越长（即，模糊区域和消歧区域之间的时间段越长），放弃错误分析并找到正确解释就越困难（Christianson等人，2001年；Ferreira & Henderson, 1991年；Tabor & Hutchins, 2004年）。其他相关因素可能包括在解析过程中对记忆造成的认知负荷，例如，由于检索干扰（Martin & McElree, 2018年；Van Dyke & Lewis, 2003年）或维持远距离依赖关系的需要（Liu, 2008年）。上述简要概述捕捉了关于从“花园小径”句子中恢复的研究现状，同时强调了其局限性。尽管这些早期研究非常详细——通常结合了多种实验方法和精心准备的标准化刺激集——但它们有时会产生相互矛盾的发现。一项研究中观察到的效应并不总是在其他研究中得到复制，偶尔甚至会报告相反的效应（参见关于频率/结构偏见和合理性的部分）。最近，Huang等人（2024年）进行了一项大规模的自我节奏阅读研究，他们调查了几个潜在预测因素（即，结构偏向最终正确分析的程度，通过完形填空任务和语料库频率来衡量，错误分析的合理性，以及消歧的惊讶程度）对三种不同类型的“花园小径”结构（以及心理语言学中经常使用的其他几种结构）的处理速度的影响。这项研究使用了令人印象深刻的参与者样本（n = 2000人）以及一套多样且精心构建的刺激集（三种类型的“花园小径”句子每种都有24个项目）。刺激的分布方式是每个项目被220到440名参与者看到。有趣的是，尽管他们的研究很有力，但未能复制之前提到的论文中观察到的大多数效应。他们记录了实验中使用的三种“花园小径”结构之间的反应时间（RT）的明显差异，但每种类型内部也有不同的RT范围。然而，这种多样性无法通过上述四个语言变量来可靠地解释。也就是说，他们没有发现初始错误分析的合理性对溢出区域的RT有显著影响。他们发现了基于完形填空的动词偏见的强烈效应，但仅针对三种“花园小径”结构中的一种（与Garnsey等人1997年使用的是同一种）。基于语料库的动词偏见也对其中一种“花园小径”类型显示出强烈效应，但这种效应的方向与预期相反（即，正确分析的频率越高，“花园小径”效应越大）。最后，惊讶程度也仅对其中一种句子类型显示出效应。因此，即使是这种高功率、大规模的复制也进一步证明了所讨论效应的不一致性。可能有几个因素导致了这种变异性。首先，大多数研究调查可能影响句子处理及其结果的因素仅使用了一种类型的“花园小径”结构（尽管具体类型在不同研究中有所不同）。然而，包括多种结构类型的研究（例如，Huang等人，2024年；Nakamura & Arai, 2016年；Roberts & Felser, 2011年）经常记录了这些结构处理方式的显著差异。在几种情况下，感兴趣的变量（如合理性或结构偏见）对一种结构有显著效应，但对另一种结构则没有。这种变化往往未被解释，可能解释了上述研究中观察到的一些不一致性。在本研究中，我们使用了一系列具有不同句法结构的“花园小径”句子。这些材料在回答准确性和RT以及可接受性评分方面产生了广泛的“花园小径”效应。使用广泛的结构有两个原因：（a）如果任何预测因素可以解释“花园小径”效应的存在和程度——这通常是隐含的假设——那么它应该在各种结构中都成立，而不仅仅是一两种；（b）更广泛的“花园小径”效应范围提高了分析的敏感性，使得任何系统性的预测因素影响更容易被发现。其次，研究在如何操作个别预测因素（如合理性或动词偏见）方面存在显著差异。一些将这些变量视为二元的和/或通常基于极端值（例如，非常合理/非常不合理，如Garnsey等人，1997年；Nakamura & Arai, 2016年），而其他研究使用连续测量，其中更合理和不太合理的项目之间的差异不那么明显（例如，Huang等人，2024年；Qian等人，2018年）。这可能导致研究人员可能错过更细微的差异，或者基于他们选择的材料得出不同的结果。在我们的研究中，我们系统地将所有预测因素视为连续变量，使我们能够直接比较它们，并捕捉它们对处理的更微妙的影响。最后，关于从错误分析中恢复的研究主要集中在模糊区域的初始错误分析的属性上，而往往忽略了句子的其他部分——特别是消歧区域和模糊区域的正确分析的作用。然而，这些也可能显著影响处理过程及其结果。例如，在消歧点，理解者必须决定将消歧区域附着在哪里；因此，其属性对于重新分析可能与模糊区域的属性一样重要。句子（13）可能比句子（14）更容易正确分析，因为消歧动词与婴儿的组合更合理、更频繁、更可预测。这种差异可能由于更高的信息量（Fodor & Inoue, 2000年；Martin & McElree, 2018年）而促进重新分析，并有助于更有效地抑制初始错误分析。我们的研究扩展了对初始错误分析的探索，还评估了消歧区域的属性和模糊区域的正确解释作为“花园小径”难度的潜在预测因素。

（13）当安娜给婴儿穿衣服时，婴儿在婴儿床里玩耍。
（14）当安娜给婴儿穿衣服时，婴儿在婴儿床里“doomscrolled”。总之，当前研究的目标是跟进Huang等人（2024年）的工作，探索“花园小径”句子的处理过程及其可能的影响因素，同时考虑到上述限制。在研究的第一部分，我们探索了一系列捷克语的“花园小径”句子，检查了消歧点处的反应时间和回答准确性的差异。在第二部分，我们探讨了导致这些差异的潜在因素。我们考虑了模糊区域的错误分析的属性、模糊区域的正确分析以及消歧区域的正确分析。对于每一个因素，我们检查了文献中先前探讨过的几个变量，并被Huang等人（2024年）使用过（合理性、惊讶程度、完形填空概率和结构/动词偏见），并将它们视为分级变量而不是二进制变量。因此，我们的研究可以被视为Huang等人（2024年）工作的扩展，关注了广泛的捷克语“花园小径”结构，同时也引入了有助于进一步分析的新数据，即回答准确性和几个句子相关部分的合理性/结构偏见/完形填空概率/惊讶程度估计（超出了模糊区域的初始错误分析）。

2 当前研究
我们的研究系统地调查了具有不同句法结构和不同程度主观自然性的“花园小径”句子的处理和最终表示方式。我们检验了观察到的变化是否可以通过先前确定的因素来解释，如结构偏见（通过完形填空任务和语料库频率来衡量）、惊讶程度和合理性。通过阐明这些差异的本质及其驱动机制，我们的发现为句法重新分析的过程提供了宝贵的见解——揭示了哪些因素影响了从错误分析中恢复的难易程度，并为语言处理的竞争理论提供了实证支持。

2.1 刺激选择
本研究的主要目的是调查各种预测因素在局部歧义解决中的作用。为此，我们使用了一组异构的刺激。鉴于捷克语是一种形态丰富的语言，具有相对自由的词序和广泛的格混合，它非常适合构建句法和语义上多样化的“花园小径”结构。刺激选择分为两个步骤进行。首先，我们确定了捷克语中的11种不同的“花园小径”句子（详见附录A）。对于每种类型，我们创建了八个项目。所有刺激都被精心设计得相对较短，长度相当（八个词），并且在可能的情况下，模糊区域的长度也相当（模糊区域和消歧区域之间有1-3个中间词）。每个“花园小径”句子都有一个密切匹配的明确对应句子，仅在模糊名词的性别或数量上有所不同（偶尔用一个接近的同义词替换），或者使用的连词不同。第二步涉及使用自然度评分研究来评估刺激集的异质性（包括88个实验项目和126个填充项，其中24个是不合语法的）。该研究通过PC IbexFarm平台在线进行（Zehr & Schwarz, 2018），共有164名查尔斯大学的学生参与，他们为了课程学分而参与。参与者在100点的滑块上对每个句子进行评分，评分范围是“完全不自然”和“完全自然”。一个“完全自然”的句子被定义为可以理解、无错误且容易在日常语言中使用的句子。一个“完全不自然”的句子则相反。根据结果，我们为最终研究选择了66个句子（每种“花园小径”类型6个）。在每种句子类型中识别出异常值，并每种类型最多排除了两个项目。如果基于模糊条件排除的项目少于两个，我们还移除了评分最低的明确项目。所选项目在整体自然度以及模糊条件与明确条件之间的对比程度上存在差异。平均而言，明确表达的句子被评价为更自然（平均值=68.89，标准差=16.63），而模糊表达的句子则不然（平均值=45.18，标准差=20.67）。两种条件下的项目级结果如图1所示。

图1展示了两种条件下各个项目的平均自然度（花园小径效应和非花园小径效应）。项目按照其在花园小径效应下的自然度降序排列。我们进行这项研究的目的是创建一组多样化的花园小径效应刺激，而不是直接比较不同类型的句子结构。某些类型的句子结构显示出明显的倾向性（例如，协调性歧义似乎更容易理解，而施事者/受益者歧义则更难理解），但同一类型内的变异性很高（具体数据见附录B中的准确性和反应时间图表）。要对花园小径效应的结构性差异进行系统分析，需要设计包含更多该类型句子的结构。在本研究中，我们重点关注这些差异如何通过连续的语言预测因素来解释，如意外性、合理性和结构偏差。

2.2 与重新分析相关的句子片段

与以往的研究不同，我们的论文关注的是花园小径效应句子的多个区域，而不仅仅是初始的误解部分。为了全面且正确地（重新）分析一个花园小径效应句子，理解者需要执行至少三个步骤，每个步骤都与句子的不同部分相关。具体来说，他们需要：(a) 将消歧区域正确地与其预定的附着点连接起来，(b) 将模糊区域从其初始位置分离出来并抑制这种误解，(c) 重新分析（并重新附着）模糊区域（Fodor & Inoue, 1994）。因此，在重新分析过程中，大脑中可能会同时呈现至少三个不同的局部信息流：消歧区域的正确分析（进一步称为DisCor）、模糊区域的误解分析（进一步称为AmbMis）以及模糊区域的正确分析（进一步称为AmbCor）。示例（15）展示了论文中早先提到的一个著名花园小径效应结构的情形。

(15) 当安娜给婴儿穿衣服时，婴儿在婴儿床里玩耍。

1. DisCor：婴儿在婴儿床里玩耍
2. AmbMis：安娜给婴儿穿衣服
3. AmbCor：安娜在给自己穿衣服

这三个信息流的属性可能会显著影响从误解中恢复的难易程度和成功率。例如，DisCor和AmbCor越频繁且合理，放弃AmbMis的可能性就越大。也就是说，如果婴儿更有可能在婴儿床里玩耍而不是正在被穿衣服，或者安娜在给自己穿衣服而不是婴儿，那么理解者可能会更容易达到句子的预期含义并坚持这种解释，同时抑制另一种解释。相反，当DisCor和AmbCor更令人惊讶时，重新分析过程中可能需要额外的处理努力。

2.3 预测因素

基于以往的研究，我们确定了上述三个区域的几个可能影响从初始误解中恢复难易程度的属性。具体来说，我们对填空概率、动词/结构偏差、意外性和合理性感兴趣。以下部分将更详细地描述这些测量方法是如何获得的。所有相关数据和代码可以在这里找到：https://tinyurl.com/d9mu7hpe。

2.3.1 填空概率

我们使用填空任务来估计每个项目倾向于模糊区域的误解分析（AmbMis）还是正确分析（AmbCor）的程度。数据来自115名参与者，他们都是查尔斯大学的学生，并且是为了获得课程学分而参与实验的。实验通过PC IbexFarm平台在线进行。参与者总是会看到一个句子前导部分，该部分在消歧区域之前结束，然后被要求在一个开放文本字段中完成句子。例如，对于句子（16），参与者看到的前导部分是“Luděk prohledal obchodnici p?ed prodejnou…”（“Luděk在商店前搜索了[acc.sg.]店主…”）。在这个例子中，名词“obchodnici”（店主）是模糊的：它最初被解释为直接宾语（acc.sg.），但最终必须被重新分析为受益者/外部所有者（dat.sg.）。

因此，参与者有机会以至少两种方式继续这个前导部分。一种是将模糊名词解释为受事者（这对应于相关花园小径效应句子的误解分析），另一种是将其解释为施事者（这对应于正确的分析）。我们手动编码了所有回答，并计算了将模糊区域解释为误解分析（ClozeAmbMis）和正确分析（ClozeAmbCor）的回答比例。在这种情况下，填空分数并不捕捉即将出现内容的可能性或可预测性，而是显示已经阅读的片段被某种方式分析的频率。换句话说，它显示了模糊区域以某种方式被解释的频率。这与基于上下文预测即将出现单词的概率的意外性估计不同（在这种情况下，意外性会显示“obchodnici”在“Luděk prohledal…”之后出现的可能性，或者“dodávku”在“Luděk prohledal obchodnici p?ed prodejnou…”之后出现的可能性）。这个度量也比例如结构偏差或合理性更为通用，因为它反映了所有可能影响参与者最终选择模糊区域某一解释的潜在因素，而不仅仅是一个变量的影响。然而，我们检查的其他预测因素（特别是意外性和合理性）似乎也在这个决策中起作用，这一点从与填空分数的中等相关性可以看出（参见图2中的相关矩阵）。

皮尔逊相关系数显示了12个感兴趣变量之间的关系。唯一一个似乎与填空分数完全不相关的度量是误解的合理性，这可能是有道理的，因为我们的数据中没有任何明显不合理的误解，这些误解可能会阻止花园小径效应的出现（我们希望确保人们能够遇到花园小径效应）。其他因素，如动词偏差或缩短依赖关系的需求，可能比场景的合理性起着更大的作用，正如Garnsey等人（1997）所展示的。

2.3.2 结构偏差

为了收集动词/结构偏差数据，我们使用了InterCorp v16ud语料库的捷克语版本（?ermák & Rosen, 2012）。我们感兴趣的是给定动词词元与符合模糊区域初始误解分析或正确分析的形态句法结构的组合出现的频率。例如，对于句子（16），我们寻找了动词“prohledat”（搜索）后跟宾格名词的情况（误解分析），以及动词后跟与格名词的情况（正确分析）。结果经过了手动检查，并排除了不相关的出现。我们使用了两个度量标准：绝对频率（FabsAmbMis, FabsAmbCor），即整个语料库中相关出现的原始数量；以及相对频率（FrelAmbMis, FrelAmbCor），即相关出现与给定动词词元所有出现的比例。

2.3.3 意外性

为了计算意外性估计，我们使用了Python中的surprisal包（Sathe, 2025）和一个公开可用的CzeGPT-2生成式Transformer模型（Hájek & Horák, 2024），该模型有1.24亿个可训练参数，并在来自互联网的5GB捷克语文档上进行了训练。每个句子中单个单词的意外性是通过对相应子词令牌的意外性值求和来计算的。我们特别关注了三个句子区域。遵循Huang等人（2024）的方法，我们计算了花园小径效应句子中消歧区域的意外性（SurpDisCor）。此外，类似于填空任务和频率度量，我们还计算了模糊区域初始误解的意外性值（SurpAmbMis），由花园小径效应条件下的模糊名词短语表示（例如，“Luděk prohledal obchodnici”），以及模糊区域正确分析的意外性值（SurpAmbCor），由非花园小径效应条件下的模糊名词表示（例如，“Luděk prohledal obchodníkovi”）。每个区域对应一个单词，该单词可以由多个子词令牌组成。子词令牌的数量因刺激物而异。每个单词的意外性值是其组成子词令牌的意外性值之和。

2.3.4 合理性

我们还收集了最终句子列表的合理性评分。66个实验项目与60个填充项一起进行了评分。填充项包括20个高度合理的句子（例如，“一位受欢迎的院长在会议上奖励了一名学生。”）、20个高度不合理的句子（例如，“一只年轻的斑马在草原上猎杀了一只母狮。”）以及20个描述不寻常但可能发生的场景的句子（例如，“马克的同学是冰壶项目的世界青年冠军。”）。总共，参与者对126个句子进行了评分。评分任务通过PCIbexFarm平台在线进行。共有111名查尔斯大学的学生为了获得课程学分而参与了实验。与可接受性评分类似，参与者使用100分的滑动尺对每个句子进行了评分。尺度的两端定义为“完全不合理”和“完全合理”。一个“完全合理的”句子被描述为在内容上显得合理且可能发生的句子，指的是在给定情境中可能发生的情景。一个“完全不合理的”句子被描述为内容无意义或奇怪的句子，指的是极不可能或不可能发生的情景。我们采用了一种3x2的设计，通过拉丁方阵在参与者之间分配。每个参与者评估了（i）花园小径效应和非花园小径效应条件下模糊区域的潜在误解分析（例如，“Luděk prohledal p?ed prodejnou obchodnici/obchodníka”），（ii）两种条件下消歧区域的正确解释（例如，“Luděk prohledal p?ed prodejnou dodávku se zbo?ím”），以及（iii）两种条件下整个句子的完整解释。我们特别关注花园小径效应条件下模糊区域的误解分析（PlausAmbMis），因为这是研究中最常用来考察合理性对花园小径效应处理影响的度量。根据第2.2节中的理由，我们还考察了消歧区域正确分析的合理性（PlausDisCor）以及非花园小径效应句子背景下模糊区域正确解释的合理性（PlausAmbCor）。

2.3.5 预测因素之间的关系

所有预测因素的平均值和其他描述性统计信息在表1中报告。表1显示了分析中使用的变量的基本描述性统计信息。

表1. 分析中使用的变量的基本描述性统计信息

预测因素平均值标准差中位数第一四分位数第三四分位数
ClozeAmbMis 0.766 0.27 0.887 0.609 0.974
ClozeAmbCor 0.268 0.27 0.139 0.043 0.487
FabsAmbMis 3702.333 8964.05 780.5 115 3085
FabsAmbCor 26.515 88.77 3 1 11
FrelAmbMis 0.131 0.15 0.052 0.015 0.211
FrelAmbCor 0.006 0.03 0 0 0.001
SurpAmbMis 13.399 6.47 12.406 8.461 16.530
SurpDisCor 11.972 3.01 12.162 10.023 13.672
SurpAmbCor 16.563 6.02 15.573 13.048 18.646
PlausAmbMis 70.109 22.64 75.03 52.88 90.94
PlausDisCor 75.562 17.87 80.305 65.07 90.24
PlausAmbCor 61.378 18.87 64.81 52.87 76.06

分析中的一个问题是，这些变量之间存在许多中等甚至强烈的相关性，如图2所示。可能的共线性问题将在第3.7节中讨论。

2.4 假设

对于所有感兴趣的变量，我们研究了它们与模糊性的相互作用——也就是说，我们预期这些变量对花园小径效应的影响比对非花园小径效应的影响更大或更显著。我们特别关注它们对针对初始误解的理解问题的回答准确性的影响，以及在消歧区域和/或溢出区域的反应时间（RT）的影响。我们假设初始误解越可能发生、越频繁、越合理，或者越不令人惊讶，花园小径效应就越强。在这种情况下，重新正确分析句子并抑制最初的错误分析将更加困难且耗时。相反，对模糊区域的正确分析越有可能、越频繁、越合理、越不令人惊讶，那么重新分析就应该越容易、越快，从而带来更好的理解结果。具体来说，我们预计以下预测因子的值越高，反应时间（RT）越长，响应准确性越低：

- 模糊区域最初错误分析的完形填空概率（ClozeAmbMis）
- 模糊区域最初错误分析的绝对和相对频率（FabsAmbMis, FrelAmbMis）
- 模糊区域正确分析的惊讶程度（SurpAmbCor）
- 消歧区域的惊讶程度（SurpDisCor）
- 最初错误分析的合理性（PlausAmbMis）

相比之下，以下预测因子的值越高，预计反应时间越短，响应准确性越高：

- 模糊区域正确分析的完形填空概率（ClozeAmbCor）
- 模糊区域正确分析的绝对和相对频率（FabsAmbCor, FrelAmbCor）
- 模糊区域最初错误分析的惊讶程度（SurpAmbMis）
- 消歧区域正确解释的合理性（PlausDisCor）
- 模糊区域正确解释的合理性（PlausAmbCor）

3 方法

3.1 数据可用性

所有材料、分析（包括R脚本）和预先注册信息都可以在这里找到：https://tinyurl.com/d9mu7hpe。

3.2 伦理批准

本研究已获得查尔斯大学艺术学院研究伦理委员会的批准（参考编号：UKFF/624176/2023）。参与实验是自愿的，所有参与者都提供了书面知情同意书。当前分析中使用的所有数据均已完全匿名化。

3.3 参与者

初始样本包括303名捷克语母语者（查尔斯大学的本科生）。有8名参与者被排除在分析之外——6名是因为他们在填充项上的响应准确性较低（即正确回答少于75%），2名是因为他们的反应时间极短（超过5%的反应时间低于100毫秒），这表明他们快速完成了实验的大部分内容。因此，分析了295名参与者的数据（244名女性，47名男性，3名非二元性别者，以及1名未披露性别），平均年龄为23.22岁。所有参与者都因参与实验而获得了课程学分。

3.4 程序

实验是通过PC Ibex Farm（Zehr & Schwarz, 2018）在线进行的。在阅读初始说明并提供知情同意后，参与者回答了基本的人口统计问题（年龄、性别、母语以及是否存在阅读困难，如阅读障碍）。然后开始实验的阅读部分。我们采用了移动窗口、逐词的自定进度阅读任务。参与者通过按空格键来显示句子中的每个单词，每次按键都会显示下一个单词，并同时隐藏前一个单词。记录了每个单词的反应时间（RT）。阅读每个句子后，参与者通过鼠标点击来回答一个是非判断的理解问题。

3.5 材料

我们使用了66个捷克语的“花园小径”句子，这些句子在补充附录中有详细描述。这些句子在长度上进行了匹配，所有句子都有相对较短的模糊区域（1-3个单词）。每种类型的句子都有六个样本，选择基于它们的自然性评分（见第2.1节）。每个样本都有一个模糊（花园小径）和一个非模糊（非花园小径）条件，两者仅在潜在模糊单词的属性上有所不同。根据拉丁方设计，参与者只看到每个样本的一个条件。每个样本后面都跟着一个针对模糊区域最初错误分析的是非判断问题。这个问题的正确答案始终是“否”。

4 结果

4.1 响应准确性

个别实验刺激的平均响应准确性在33.33%到96.62%之间，平均正确答案为74.02%。图3展示了根据花园小径条件的准确性降序排列的各个项目的响应准确性变化。图3显示了两种条件（花园小径和非花园小径）下各个项目的响应准确性。如第3.7节所述，我们为每个独立变量与模糊性存在的交互作用运行了单独的模型。我们关注句子的几个部分：模糊区域的最初错误分析、模糊区域的正确分析（通常由非花园小径条件下的相应部分表示），以及消歧区域的正确分析。

4.2 反应时间

每个项目的平均反应时间及其95%置信区间分别绘制在图5（消歧区域）和图6（溢出区域）中。图5和图6中的项目根据它们在花园小径条件下的平均反应时间降序排列。分析分别针对两个区域进行了：（i）消歧词和（ii）溢出词（即消歧词之后的词）。我们再次为每个独立变量与模糊性存在的交互作用运行了单独的模型。我们特别关注交互作用效应，这些效应可以显示预测因子对花园小径和非花园小径句子的不同影响。在应用Bonferroni校正后，我们只记录了两个显著的交互作用效应，即（i）ClozeAmbMis（错误分析的概率）和（ii）PlausAmbCor（模糊区域正确分析的合理性）。此外，只有在包含ClozeAmbMis和ClozeAmbCor的模型中才出现了显著的主效应。总之，许多模型未能产生预期的效应，尽管效应很小。在表2中，我们使用BIC（Schwarz, 1978）评估了模型拟合度。每个模型都包括一个与模糊性存在（即句子是否为花园小径句子）相互作用的预测因子。模糊性的存在使用求和对比编码，花园小径句子编码为0.5，非花园小径句子编码为-0.5。随机效应包括参与者和项目，随机斜率结构根据Matuschek（Matuschek, Kliegl, Vasishth, Baayen, & Bates, 2017）的建议确定。反应时间分析使用lme4包（Bates, M?chler, Bolker, & Walker, 2014）的线性混合效应模型进行。p值使用lmerTest包（Kuznetsova, Brockhoff, Christensen, & others, 2017）的Satterthwaite近似值估计。固定效应和随机效应结构与响应准确性模型中使用的相同。在模型中，我们关注消歧区域及其紧随其后的区域（溢出区域），因为在这里预期会出现典型的花园小径效应。由于我们为每个变量运行了12个平行模型，我们必须考虑I型错误的风险增加（参见von der Malsburg & Angele, 2017）。因此，我们对每个模型应用了Bonferroni校正（Bonferroni, 1936）。因此，响应准确性分析的p值显著性阈值降低到0.004（即0.05/12），反应时间的分析降低到0.002（即0.05/24）。只有低于这个数字的效应在文中报告（完整模型可在补充材料中找到）。

4.2 反应时间

每个项目的平均反应时间及其95%置信区间分别绘制在图5（消歧区域）和图6（溢出区域）中。图5和图6中的项目根据它们在花园小径条件下的平均反应时间降序排列。分析分别针对两个区域进行了：（i）消歧词和（ii）溢出词（即消歧词之后的词）。我们再次为每个独立变量与模糊性存在的交互作用运行了单独的模型。我们特别关注交互作用效应，这些效应可以显示给定预测因子对花园小径和非花园小径结构的不同影响。12个线性混合效应模型的估计结果在图7（消歧词）和图8（溢出词）中展示。我们在所有模型中都记录了模糊性的显著主效应。图7和图8显示了以消歧区域为因变量、以与模糊性存在的交互作用为固定效应的个别预测因子为自变量的模型估计结果。在应用Bonferroni校正后，我们只记录了两个显著的交互作用效应，即（i）ClozeAmbMis（错误分析的概率）和（ii）PlausAmbCor（模糊区域正确分析的合理性）。此外，只有在包含ClozeAmbMis和ClozeAmbCor的模型中才出现了显著的主效应。总之，许多模型完全未能产生预期的效应，尽管效应很小。在表2中，我们使用BIC（Schwarz, 1978）评估了模型拟合度。包含两种完形填空概率的模型被认为是最好的，根据比较，这两个模型完全解释了测试模型中的证据。对于ClozeAmbCor，我们发现了相反的趋势，即正确分析的完形填空概率，其中交互作用是负的（）——这种分析越有可能，处理“花园小径”句子（即那些因歧义而需要额外解释的句子）的速度就越快。对于SurpDisCor，即消歧区域的惊讶程度，更高的惊讶值会导致更长的反应时间（RT）。我们还记录了三个显著的主效应，分别是ClozeAmbMis（）、ClozeAmbCor（）和SurpDisCor（）。在应用Bonferroni校正后，其他预测因子未能达到显著性。使用BIC比较溢出区域模型结果的结果见表4。我们可以看到有两个模型得到了支持（即使用完形填空分数的模型）。ClozeAmbCor分数的模型权重最高（0.71），其次是ClozeAmbMis模型（0.29）。

表4. 使用BIC比较溢出区域（即消歧词之后的单词）的反应时间的线性混合效应模型

预测因子
LL
BIC
Delta BIC
BICWt

ClozeAmbCor
-8218.34
16,545.28
0
0.71

ClozeAmbMis
-8219.22
16,547.04
1.76
0.29

FrelAmbCor
-8225.61
16,559.82
14.53
0

SurpAmbMis
-8225.73
16,560.07
14.79
0

FrelAmbMis
-8226.02
16,560.65
15.37
0

PlausAmbMis
-8226.15
16,560.90
15.62
0

FabsAmbCor
-8226.92
16,562.45
17.17
0

SurpDisCor
-8315.69
16,720.24
174.96
0

SurpAmbCor
-8319.50
16,727.87
182.59
0

PlausAmbCor
-8322.49
16,733.85
188.56
0

SurpDisCor
-8375.30
16,839.46
294.18
0

注：模型是根据Delta BICc值排序的。

5. 讨论

我们的研究考察了完形填空概率、结构/动词偏见、惊讶程度和合理性对“花园小径”效应的影响，这些效应是通过阅读时间和反应准确性来衡量的。这些因素之前被认为与解决局部句法歧义有关，尽管之前的研究结果并不一致。通过分析一组多样化的局部歧义和非歧义句子，我们发现了完形填空概率的稳健且一致的影响。这些影响在反应准确性和阅读时间上都得到了体现，包括显著的主效应和交互作用。包含完形填空分数的模型基于BIC一致显示出更好的拟合度。相比之下，结构偏见、惊讶程度和合理性显示出较弱、不一致或无显著的效果。在反应准确性方面，我们观察到歧义和ClozeAmbMis之间的关键交互作用，表明错误分析发生的可能性越大，参与者得出错误解释的可能性就越大，即使在潜在的重新分析之后也是如此。这表明，一旦遇到消歧线索，更受青睐的延续性就更难以被忽略。另一个显著的交互作用涉及PlausAmbCor：当歧义区域的预期解释非常合理时，参与者在解决歧义和避免/抑制错误分析方面更为成功。我们将这些结果解释为证据，表明“花园小径”消歧是由多种因素共同作用的结果，这些因素考虑了句法、语义和语用学，而不仅仅是基于频率的结构偏好或单独的语义/语用学。虽然结构/动词偏见（通过频率来衡量）被认为会指导初始的解析决策，但我们的数据表明，影响重新分析的关键因素实际上是错误分析最初发生的一般可能性，而这受到前文所有属性的影响（而不仅仅是其结构、词汇或语用偏见）。这一解释得到了RT数据的支持。包含完形填空分数的模型与歧义存在性显示出显著的交互作用，表明局部歧义句子的反应时间更长：完形填空分数越倾向于错误解释，RT就越长。重要的是，我们在RT方面观察到的唯一其他显著交互作用是惊讶程度（即SurpDisCor）对溢出区域的影响。其余的预测因子——歧义区域的惊讶程度、结构偏见和合理性——未能产生预期的效果。

我们的结果自然引出了一个问题：为什么在我们的实验中，完形填空分数的表现优于惊讶程度，尽管这两种测量方法都旨在量化可预测性。从概念上讲，完形填空分数和惊讶程度都整合了理解者在做出解释时可能依赖的多种语言信息来源（句法、语义、语用和分布）。我们数据中两者之间的中等相关性（见图2）进一步说明了它们涉及相关的潜在过程。差异最可能的解释与这些预测因子的操作方式有关。惊讶程度估计量化了在给定前文的情况下，某个特定单词接下来出现的可能性。相比之下，我们研究中使用的完形填空概率量化了参与者在阅读整个句子片段后选择某个特定解释的可能性（例如，“While Anna dressed the baby...”）。从这个意义上说，完形填空分数反映了理解者偏好的解释分布，而惊讶程度反映了特定词汇延续的模型推导概率（例如，“dressed”）。其他差异与惊讶程度和完形填空分数的收集/计算方式有关。例如，完形填空分数受到任务相关限制的影响（例如，样本量有限，省略了低概率的延续），这可能会扭曲潜在的概率分布（Smith & Levy, 2011; Shain, Meister, Pimentel, & Levy, 2024）。相比之下，基于大型语言模型的惊讶程度为任何词汇延续分配了非零概率，但它反映了模型训练语料的统计特性，而不是人类的预期本身。在我们的案例中，完形填空分数反映了首选的结构解释，而不是词汇的可预测性，因此不受完成任务中典型的零概率问题的影响。尽管如此，我们的完形填空数据可能反映了其他任务相关的影响。因为完形填空分数是一个离线测量，参与者的完成可能受到策略性或事后推理的影响（de Varda, Marelli, & Amenta, 2024）。例如，参与者可能最初倾向于一个歧义解释，但随后选择了更容易继续的消歧解释（Ceháková & Chromy, 2023）。在自我控制阅读中也可能发生类似的过程，其中可见的延续可能会以类似的方式影响解释（de Varda et al., 2024）。也有可能理解者依赖的概率分布与LLM生成的分布不同（de Varda et al., 2024; Smith & Levy, 2011; Shain et al., 2024），这可能是由于LLM训练的文本存在各种偏见，这些偏见可能无法准确反映“现实世界”中的语言统计特性，或者由于人类参与者在学习或处理过程中的错误或个体偏见。后者得到了进一步的支持，即当考虑记忆限制（Futrell, Gibson, & Levy, 2020）、专业知识（?krjanec, Broy, & Demberg, 2023）或对词汇和句法的不同重视（Arehalli, Dillon, & Linzen, 2022）时，惊讶程度估计与人类数据的拟合度会提高。几项研究（例如，Huang et al., 2024; van Schijndel & Linzen, 2021）表明，尽管预测有助于“花园小径”效应，但可能还涉及其他机制。此外，人类的预测可能与LLM生成的预测不同。例如，Arehalli et al.（2022）表明，当词汇和句法可预测性独立建模并且句法信息被赋予更大权重时，模型产生的RT预测与人类数据更吻合——尽管即使在这种情况下，减速的幅度仍然被低估了。Huang et al.（2024）进一步提出，歧义解决涉及重新分析以及额外的处理成本。另一种可能性是，支持预测的表示受到噪声或记忆限制的干扰，正如在损失性上下文惊讶程度中形式化的那样（Futrell et al., 2020）。记忆的潜在作用也得到了支持，因为较长的歧义区域往往与更大的“花园小径”效应相关（Ferreira & Henderson, 1991; Christianson et al., 2001）。由于我们的完形填空分数是基于人类判断得出的，它们更可能反映这些额外过程的影响。完形填空分数是离线测量的，因此参与者的完成可能受到策略性或事后推理的影响（de Varda, Marelli, & Amenta, 2024）。例如，参与者可能最初倾向于一个歧义解释，但随后选择了更容易继续的消歧解释（Ceháková & Chromy, 2023）。在自我控制阅读中也可能发生类似的过程，其中可见的延续可能会以类似的方式影响解释（de Varda et al., 2024）。此外，理解者依赖的概率分布可能与LLM生成的分布不同（de Varda et al., 2024; Smith & Levy, 2011; Shain et al., 2024），这可能是由于LLM训练的文本存在各种偏见，这些偏见可能无法准确反映“现实世界”中的语言统计特性，或者由于人类参与者在学习或处理过程中的错误或个体偏见。后者得到了进一步的支持，即当考虑记忆限制（Futrell, Gibson, & Levy, 2020）、专业知识（?krjanec, Broy, & Demberg, 2023）或对词汇和句法的不同重视（Arehalli, Dillon, & Linzen, 2022）时，惊讶程度估计与人类数据的拟合度会提高。几项研究（例如，Huang et al., 2024; van Schijndel & Linzen, 2021）表明，尽管预测有助于“花园小径”效应，但可能还涉及其他机制。此外，人类的预测可能与LLM生成的预测不同。例如，Arehalli et al.（2022）表明，当词汇和句法可预测性独立建模并且句法信息被赋予更大权重时，模型产生的RT预测与人类数据更吻合——尽管即使在这种情况下，减速的幅度仍然被低估了。Huang et al.（2024）进一步提出，歧义解决涉及重新分析以及额外的处理成本。另一种可能性是，支持预测的表示受到噪声或记忆限制的干扰，正如在损失性上下文惊讶程度中形式化的那样（Futrell et al., 2020）。记忆的潜在作用也得到了支持，因为较长的歧义区域往往与更大的“花园小径”效应相关（Ferreira & Henderson, 1991; Christianson et al., 2001）。由于我们的完形填空分数是基于人类判断得出的，它们更可能反映这些额外过程的影响。完形填空分数作为“花园小径”效应的更强和更一致的预测因子，这一发现可能与之前的研究结果相关，这些研究表明惊讶程度低估了这些效应的幅度（例如，Huang et al., 2024; van Schijndel & Linzen, 2021）。然而，这些研究的结果由于方法论的不同而无法直接比较：与这些研究不同，我们没有估计“花园小径”效应的预测效应大小。我们的发现仅表明惊讶程度有助于消歧的速度（但不影响反应准确性）。这种贡献的幅度仍然是一个未解决的问题。关于合理性，我们在准确性数据中观察到歧义和PlausAmbCor之间的显著交互作用。这表明预期解释的语义契合度有助于从错误分析中恢复，可能是在正确的结构变得可用时加强了它。然而，合理性效应通常比完形填空分数的效应弱，我们在RT数据中没有发现合理性的显著效应。这一模式与Qian et al.（2018）和Huang et al.（2024）的发现一致。此外，合理性效应在多种句子类型中的缺失与Roberts & Felser（2011）和Nakamura & Arai（2016）的结果一致，他们只发现某些句子类型（通常是更具挑战性的类型）存在合理性效应。本研究的一个局限性涉及预测因子的测量。虽然我们的操作化可能无法完全捕捉动词偏见、完形填空概率或惊讶程度的所有方面，但我们认为所使用的测量方法是基于成熟的方法论的。完形填空分数和合理性评分来自100多名具有与自我控制阅读任务参与者相似人口统计特征的捷克语母语者的回答（即查尔斯大学的本科生）。其他两个预测因子（结构偏见和惊讶程度）是使用广泛可用的工具计算的：InterCorp v16ud语料库（?ermák & Rosen, 2012）和CzeGPT-2生成式Transformer模型（Hájek & Horák, 2024）。然而，InterCorp或CzeGPT-2的训练数据中代表的体裁可能无法完全反映我们实验材料中使用的捷克语的分布特性。如果是这样，这可能会在分析中引入噪声或混淆，降低我们检测相关效应的能力。另一个可能导致动词偏见效应缺失的潜在原因是，某些频率值（特别是对于AmbCor条件）极低甚至为零。这可能导致地板效应，使模型估计复杂化。此外，我们的频率测量仅针对形态句法偏见，而没有考虑词汇上下文，而完形填空任务显示了最稳健的效应，它反映了歧义词的先验上下文以及词汇内容。根据我们的结果，仅动词偏见本身似乎不足以解释使用结构多样化刺激时观察到的差异。另一个潜在的局限性涉及我们刺激集的范围和组成。可能有些效应仅适用于选定的“花园小径”结构子集，或者某些发现特定于捷克语。虽然前者不能排除，但我们的刺激集是明确设计来广泛采样局部歧义结构的。我们包括了11种在句法结构、语义解释和自然性方面不同的“花园小径”句子，同时控制了句子长度和歧义区域长度等因素。这些项目的效应大小也各不相同，产生了处理难度的广泛范围。重要的是，我们在不同模型中一致观察到了歧义的主效应：参与者在消歧区域和溢出区域的阅读时间增加，他们对理解问题的回答表明了初始错误分析的持续影响。这些模式确认了刺激可靠地引发了“花园小径”效应，支持了我们的发现在不同结构化刺激集上的普遍性。然而，这些结果可能特定于捷克语和捷克语使用者。如前所述，捷克语是一种形态丰富的语言，具有丰富的格混合和相对灵活的词序。这两个方面都可能经常产生歧义，从而影响说话者处理这些歧义的方式。例如，捷克语使用者可能倾向于依赖所有潜在的信息来源来消歧义，而不是仅仅依赖结构偏见或合理性信息（因为这些信息本身可能由于捷克语中的众多潜在歧义而效率低下）。因此，某些在捷克语中不是成功预测因素的因素可能在其他语言（如英语）或词序较固定的语言（如普通话）中仍然有效。这些跨语言差异可能为某些现象提供另一种解释。例如，在许多使用英语材料的研究中，动词偏见（verb-bias）被证明是预测“花园小径效应”（garden-path effects）的有效指标，但在我们的实验中并未产生任何效果。研究不同语言中各种语言特性如何影响歧义消除过程，以及这些语言的使用者依赖哪些类型的信息，可以提供宝贵的见解，并将本文的结果置于更广阔的视角中。同样值得强调的是，我们的研究扩展了之前关于如何操作化相关预测因子的研究。除了考察最初被优先解释（但存在误解）的歧义区域的特性外——这是早期研究中的常见方法——我们还考虑了正确解释的特征，以及消歧区域的特性本身。这种方法反映了这样一个观点：最初的误解程度与识别和产生正确分析的难易程度共同决定了处理难度和重新分析的成功与否。关注这些区域的特性至关重要，因为它们在重新分析过程中都起着重要作用——消歧区域表明了当前分析中的错误，并启动了重新分析的过程（参见Fodor & Inoue, 2000, 1994），而如果要使重新分析成功，就需要恢复歧义区域的正确解释。已有大量研究表明，这些区域可以提供关于花园小径句重新分析机制的关键见解（例如，一些研究表明，尽管研究者们认为这些区域通常会被正确分析，但实际上往往并没有被正确处理）（Chromy, 2022; Ceháková & Chromy, 2025）。我们的研究为这一观点提供了进一步的证据。最后，我们希望强调，反应时间（RTs）或回答准确性的缺失并不意味着所研究的预测因子对花园小径句的相对难度没有影响。越来越多的研究表明，理解过程具有高度个体化特征，而诸如处理速度或眼球运动等行为测量方法并不能完全反映句子理解过程中涉及的认知机制。例如，Christianson等人（2017）认为，消歧区域的反应时间并不能可靠地反映重新分析是否成功。同样，Paape和Vasishth（2022）以及Christianson等人（2024）证明，不同的个体采用不同的重读策略，这可能导致不同的理解结果。此外，Ceháková和Chromy（2023）指出，同一个花园小径结构可能会在参与者之间产生多种不同的心理表征。鉴于这种变异性，我们研究中考察的一些预测因子可能对不同个体产生不同的影响，或者这些影响被个体间的处理策略差异所掩盖。例如，一个包含高度合理误解的花园小径句对某些理解者来说可能很难处理，但对其他人来说则不然。对于那些觉得有挑战性的理解者来说，他们的反应可能差异很大：有些人可能迅速且成功地重新分析了句子；有些人可能需要费力且花费较长时间进行修正；有些人可能认识到歧义但放弃了解决它；还有些人尽管处理时间较长，仍然坚持错误的分析。这些反应特征的差异可能会降低平均反应时间或准确率等汇总测量的敏感性，并可能解释某些预测因子为何没有表现出显著效果。最后，正如一些先前的研究所显示的（例如，Garnsey等人，1997；Nakamura & Arai, 2016；Roberts & Felser, 2011），某些预测因子可能只有在特定条件下才会产生显著效果（例如，在特定的句法结构中或在特别困难的句子中）。此外，预测因子之间也可能存在相互作用：当理解者无法依靠强烈的结构偏见来消除花园小径句的歧义时，他们可能会更多地依赖合理性线索，反之亦然。遗憾的是，全面研究跨结构差异或预测因子之间的相互作用超出了本研究的范围。然而，这些问题非常重要，它们为未来的研究指明了几个有前景的方向。

6 结论

总体而言，我们的结果表明，通过完形填空分数（cloze scores）测量的歧义区域被误解/正确分析的普遍可能性，是预测花园小径句处理难度的可靠且一致的指标，无论是从反应时间（RTs）还是理解准确性来看都是如此。这些发现表明，误解发生的普遍程度——受到语言特性（句法、语义、语用、语境等）复杂组合的影响——而不是这些特性中的任何一个单独因素——在句法歧义消除中起着主导作用。通过系统地比较不同结构中的多个预测因子，我们的研究还强调了在心理语言学研究中使用多样化但控制良好的刺激集的重要性，因为不同类型的句子在结果上可能存在差异。

致谢

我们想感谢Iza ?krjanec提供她的专业知识并协助我们计算惊讶度估计值。我们还要感谢查尔斯大学文学院和捷克科学院心理学研究所联合设立的“行为与语言研究实验室”（LABELS），他们在数据收集过程中分享了资源并提供了支持。

资金支持

这项工作得到了欧洲区域发展基金项目“超越安全：冲突在增强韧性中的作用”（项目编号：CZ.02.01.01/00/22_008/0004595）的支持。两位作者还得到了查尔斯大学Cooperatio项目的支持。

热点排行