拼写习得过程中的前测与后测：来自不同书写系统的跨语言证据

《Applied Cognitive Psychology》：Pretesting and Posttesting in Spelling Acquisition: Cross-Linguistic Evidence From Contrasting Writing Systems

【字体：大中小】 时间：2026年04月25日 来源：Applied Cognitive Psychology 1.8

编辑推荐：

　　摘要了解认知机制如何支持不同书写系统中的拼写习得是教育心理学中的一个基本挑战。我们首次进行了对照比较研究，探讨了在教学前生成拼写（预测试）、教学后回忆拼写（后测试）以及抄写（传统转录法）在字母文字和非字母文字语言中的效果。在两项预先注册的课堂实验中，我们使用了讲普通话的三年级

　　摘要

了解认知机制如何支持不同书写系统中的拼写习得是教育心理学中的一个基本挑战。我们首次进行了对照比较研究，探讨了在教学前生成拼写（预测试）、教学后回忆拼写（后测试）以及抄写（传统转录法）在字母文字和非字母文字语言中的效果。在两项预先注册的课堂实验中，我们使用了讲普通话的三年级学生作为研究对象，结果发现对于中文拼写（实验1）和英语作为第二语言的拼写（实验2），预测试和后测试的表现优于抄写方法（Cohen's d = 0.26–0.74）。在24小时后，后测试对中文拼写的学习效果最为显著；而对于英语拼写，预测试的表现优于抄写，但不及后测试。7天后，预测试和后测试的效果趋于一致，这表明存在不同但互补的认知过程：预测试可能激活了预测性知识并集中了注意力，而后测试可能通过回忆过程增强了记忆巩固。这些发现支持了拼写的双重路径模型，并对教学中以抄写为主的方法提出了挑战。此外，它们还为整合基于测试的教学方法提供了实证依据，以改善不同书写系统中的正字法学习。

1. 预测试和后测试
预测试（也称为错误生成，在某些情况下也称为预提问）涉及在学习信息之前进行练习测试，之后有机会学习正确答案。这样做要求学习者进行猜测，因此错误的回答很常见（Pan和Carpenter 2023）。越来越多的研究文献表明，预测试可以改善记忆——这种现象也被称为预测试效应——适用于各种类型的学习材料，包括文本段落（例如Little和Bjork 2011）和事实（例如Kornell等人2009），但尚未在拼写单词方面得到证实。对于预测试效应的理论解释包括几个潜在机制：搜索集假设（Grimaldi和Karpicke 2012）认为，不成功的回忆尝试会激活语义相关的信息，从而丰富后续编码正确答案的情境；好奇心假设（Gruber等人2014）认为，失败的回忆会产生一种激发好奇心的动机状态，从而促进后续学习；Kornell（2014）提出，预测试的好处来自于激活了将回忆线索与目标答案连接起来的中介信息。具体到拼写，这些机制预测，即使错误地尝试生成一个单词的正字形式，也应该激活语音、形态学和部分正字知识，从而有助于后续正确拼写的编码。尽管预测试是英语拼写教学中的“测试-学习-测试”方法以及拼写评估（即基线评估）的一个组成部分，但迄今为止尚缺乏关于预测试对拼写技能习得影响的严格控制的研究（参见Gates 1931）。后测试（也称为回忆练习）涉及对已经学过的信息进行练习测试。它被广泛认为是能够改善长期记忆保持的有效方法——这种现象被称为回忆练习效应（Pan和Rickard 2018；Rowland 2014）。历史上，英语拼写教学一直使用后测试（例如Horn 1947；Horn和Ashbaugh 1920）。支持这种方法的研究表明，后测试对字母文字和非字母文字语言中的拼写学习都有益处。例如，Jones等人（2016）的研究；另见Bouwmeester和Verkoeijen（2011）；da Silva等人（2023）；Harrington和Jiang（2013）；Kang（2010）的研究发现，与基于抄写的彩虹书写技术相比，后测试提高了小学生对英语拼写单词的记忆保持。然而，支持拼写教学中后测试的认知机制尚未得到充分探讨，特别是在年轻学习者和不同书写系统中。此外，尚不清楚这些机制是否在所有书写系统中普遍适用，还是特定于某种书写系统的。本研究通过考察两种理论上不同的基于练习的测试方法——预测试和后测试——来解决这些不确定之处，这两种方法在拼写习得过程中似乎涉及互补的认知路径。通过在中文（形音节）和英语（字母）书写系统中进行平行实验，我们提供了初步的证据，证明不同的练习测试方法背后存在着不同的认知机制，这对正字法学习的理论模型和基于证据的教育实践都有重要意义。

2. 理论框架
2.1 拼写习得中的认知机制
理解拼写习得需要考虑正字表征是如何形成和检索的。词汇质量假设（Perfetti和Hart 2002）提出，熟练的拼写依赖于整合了语音、语义和视觉-正字信息的高质量表征。然而，当前的理论尚不足以详细说明不同的教学方法如何有助于构建这些表征，尤其是在不同的书写系统中。
2.2 练习测试的认知架构
尽管练习测试已成为学习科学中最有效的教学方法之一（Dunlosky等人2013；Roediger和Karpicke 2006），但其背后的机制仍存在争议。我们认为，预测试和后测试代表了练习测试的两种不同形式，它们在拼写习得过程中涉及互补的认知机制。具体来说，预测试似乎涉及前瞻性过程，通过预测性激活和集中注意力来准备学习系统进行后续编码（Grimaldi和Karpicke 2012；Potts和Shanks 2014）。相反，后测试则涉及回顾性巩固过程，通过回忆练习来加强现有的记忆痕迹（Karpicke和Roediger 2008；Roediger和Butler 2011）。
2.3 拼写中的跨语言认知机制
一个关键的理论问题是，这些认知机制是否在所有书写系统中普遍适用，还是表现出特定于书写系统的模式。虽然语音处理在所有书写系统中都起着核心作用，但其重要性在字母文字和非字母文字之间有所不同（Perfetti等人2013；Ziegler和Goswami 2005）。这些差异表明，预测试和后测试可能根据正字系统的特点对学习产生不同的影响。然而，我们的理论框架预测，预测性激活和基于回忆的巩固机制代表的是跨领域的认知过程，这些过程超越了特定的正字属性。尽管中文部首和英文字母模式的内容不同，但背后的认知操作应该是不变的；此外，这些机制的核心功能——优化编码和加强记忆痕迹——适用于不同形式的陈述性学习，包括正字法习得。如果确实如此，那么使用某种练习测试方法（例如预测试）最终可能会产生相似的拼写学习结果，无论涉及的语言是中文还是英文。
2.4 有效学习策略的更广泛背景
对拼写习得中预测试和后测试的研究有助于发现基于证据的学习策略。元分析一致表明，练习测试是各领域中最有效的学习技巧之一（Adesope等人2017；Dunlosky等人2013；Rowland 2014），但其应用于拼写教学的情况仍然有限。鉴于关于拼写教学的历史性争论，这一差距尤为明显。“拼写战争”（Schlagal 2002）长期以来一直在基于语音的方法和整体词方法之间进行对比，但很少关注练习条件（独立于教学内容）如何影响正字学习。通过研究拼写中的练习测试，本研究将认知心理学与教育实践联系起来，回应了在读写教育中进行更多跨学科研究的呼吁（Castles等人2018）。此外，最近关于理想难度（Bjork和Bjork 2011）的研究强调了在学习过程中引入挑战通常会增强长期记忆保持。预测试（可能涉及错误生成）和后测试（需要努力回忆）都被认为是能够施加有益认知要求的理想难度。理解这些难度在不同书写系统中的运作方式，可以为学习中的最佳挑战理论提供依据，并解决关于文化适宜拼写教学的实际问题。

3. 本研究
鉴于理解拼写习得中的练习测试机制的理论和实践意义，以及比较不同正字系统这些方法的研究的匮乏，有必要进行一项控制严格的跨语言研究。这样的研究可以测试练习测试效果背后的认知机制是否是普遍的学习原则，或者它们是否与特定于书写系统的属性相互作用——这个问题对记忆理论和全球读写教育都有重要意义。我们进行了一项系统的研究，探讨了预测试和后测试在不同书写系统中如何激活不同的认知机制。该研究包括两个课堂实验，研究对象是讲普通话的三年级学生，比较了在学习和记忆中文字符（实验1）和英语作为第二语言的单词（实验2）时，预测试、后测试和传统抄写练习的效果，随后在24小时和1周后进行了保持测试。通过研究母语为中文的学生学习和记忆中文字符（实验1）和英语单词（实验2），我们旨在区分普遍的认知机制和特定于书写系统的过程。具体来说，我们测试了三个预测：（1）如果预测试和后测试涉及不同但互补的认知机制，那么无论何种书写系统，它们都应该优于被动抄写；（2）如果这些机制与正字属性相互作用，那么预测试和后测试的相对优势应该在中文和英文之间有所不同；（3）如果这两种方法最终都能产生高质量的正字表征，那么尽管初始路径不同，它们的长期效果应该趋于一致。除了理论上的进展外，这项研究还解决了基于证据进行拼写教学的迫切需求。在中国教育中，字符抄写（习字）尽管缺乏实证支持（Li等人2012；Tan等人2005），仍然占主导地位。同样，英语拼写教学往往依赖于未经实证支持的方法，而不是基于认知的方法（Pan等人2021）。通过阐明有效练习方法背后的认知机制，我们旨在为不同教育环境中的拼写教学改革提供理论基础。这项研究获得了研究型大学伦理委员会的批准，于2024年11月进行，参与者自愿参与，并获得了监护人的同意。

5.2 设计

我们采用了3（练习方法：预测试 vs. 后测试 vs. 无测试的复制）× 2（回忆测试延迟：第2天 vs. 第7天）的被试内设计。在每种练习方法中，参与者学习了16个他们之前在学校没有学过的汉字。学习之后，在接下来的第二天和第七天进行了回忆测试。练习方法的学习顺序、分配给每种练习方法的汉字以及回忆测试中评估的材料都进行了平衡处理。

5.3 材料

学习材料包括48个汉字，这些汉字是从人民教育出版社（PEP）的教科书选出的，并征求了三年级教师的意见。这些汉字被教师们认为适合用于本研究，因为它们在更高年级才会被教授。在一个针对八名三年级学生的试点测试中，平均准确率为0.42（标准差=0.19），略高于预期，但教师们认为其他单词会太难。汉字被分成三个列表（A、B和C），每个列表有16个汉字，以便进行平衡处理。努力根据笔画数（从4到16不等）和汉字的频率（从0.003%到0.052%不等）来匹配列表的难度。每个列表的汉字被随机排序一次，并在练习过程中保持这一顺序。三种练习方法都使用同一个练习表来完成。每个练习表包含16组预先印好的空白空间，用于练习汉字，其布局和其他特征在本手稿的后面有详细描述。

5.4 程序

实验持续了一周，每个小组都遵循图1中概述的程序。第一天，参与者连续学习了三组拼写单词，每组使用不同的方法进行教学（先教学再练习或相反）。第二天，第一次回忆测试评估了每组单词的一半；第七天，第二次回忆测试评估了剩余的单词。练习方法的顺序、单词列表的分配以及回忆测试中评估的材料都进行了平衡处理。所有小组成员同时完成相同的活动，但各自独立工作。三个单词列表是连续学习的，每个列表使用不同的方法，中间没有休息。练习环节由研究助理在安静的教室里监督进行，包括通过预测试、后测试或复制来学习汉字。教学环节由课程教师在同一房间内进行。所有的回忆测试也在那里进行，并由同一研究助理负责。

5.4.1 教学环节

教学环节包括课程教师通过PowerPoint幻灯片逐一展示每个汉字，解释发音、结构和可能的词组。每个环节大约持续8分钟。在教学之前，教师准备了详细的提纲并进行了练习讲座，以标准化内容和时间。使用计时器严格将环节限制在8分钟内，并由研究助理监控时长，以确保所有条件的一致性。

5.4.2 练习环节

对于所有三种练习方法，通过每次尝试分配20秒的时间以及每个汉字四次练习或复制的机会来确保任务时间和练习量相等。每次练习环节的时间由研究助理监控并记录下来。每种方法的详细信息如下：

5.4.2.1 预测试

在预测试中，参与者在学习正确形式并接受详细指导之前，首先猜测每个汉字的书写方式。他们进行了两次猜测：第一次没有视觉提示；第二次则看到PowerPoint幻灯片上显示的汉字的上半部分或下半部分作为提示。在第一次尝试中，参与者在听到汉字的发音后尝试写出整个汉字，并被鼓励尽可能完整和准确。在第二次尝试中，当说出汉字名称时显示半个汉字的提示，参与者再次写出完整的汉字。猜测之后，参与者完成了两次复制练习，每次计时20秒，随后是一个显示完整汉字的幻灯片供复制。第一次复制尝试在两次猜测之后立即进行，然后对每个汉字进行第二次复制尝试。之后再进行教学环节。要求每个单词进行两次猜测是基于最近的研究发现，即增加猜测次数可以提高预测试的效果（Kliegl等人，2024年）。提供半个汉字的提示是为了防止学生简单地重复之前的猜测，并帮助学习。

5.4.2.2 后测试

后测试在针对目标汉字的教学环节之后进行。参与者尝试两次回忆每个汉字的拼写，每次回忆后进行复制（并提供正确答案的反馈）。对于每个汉字，研究助理首先大声读出汉字，然后参与者尝试书写。接着，展示一个显示完整汉字的PowerPoint幻灯片，参与者抄写一遍。在以这种方式尝试了所有16个汉字之后，参与者翻开练习表，以相同的顺序重复整个过程（第二次回忆加上复制）。每次尝试持续20秒。

5.4.2.3 复制

复制在针对要练习的汉字的教学环节之后进行。为了便于复制，相关的练习表上打印了16个正确拼写的汉字，旁边是用于复制的空白空间（注意：考虑在PowerPoint幻灯片上投影正确拼写的汉字，但这可能会让学生有机会在进行复制的同时进行某种形式的检索练习）。每个汉字使用提供的练习表完成了四次复制尝试。每次尝试持续20秒。需要强调的是，在复制之前，学生已经接受了关于每个项目的意义、发音和结构的明确指导，并被要求在复制时仔细注意每个单词或汉字的构成，而不仅仅是复制其视觉形式。复制的准确性得到了监控，结果显示所有参与者几乎都达到了最高水平，表明他们在视觉上关注并准确监控了自己的书写输出。

5.4.3 回忆测试

每个小组在第二天（24小时后）和第七天完成了回忆测试。第二天，测试了每个列表中一半的汉字（16个中的8个）；第七天测试了每个列表中剩余的8个汉字。这种分隔是为了防止重复测试造成的混淆。每天的三次回忆测试——每种练习方法学习的列表各一次——都按照相同的平衡顺序进行，测试之间没有休息。在每次回忆测试中，考官会清晰地读出两个汉字的短语两次，并要求参与者写下短语中的目标汉字（使用两个汉字的短语有助于区分中文中常见的同音字）。参与者在答题纸上按顺序写下指定的汉字，每个汉字有20秒的时间。

5.5 评分

参与者在每次练习环节和回忆测试中的回答评分如下：对于一个完整的汉字，正确的回答得1分，任何遗漏或笔画错误都被视为错误。回忆测试的分数是正确书写的汉字数量。评分由一位有经验的小学中文教师完成，该教师不知道练习方法。

5.6 分析计划

与我们预先注册的分析计划不同，我们最终选择拟合线性混合效应模型来解释重复测量设计，并包括参与者和项目（汉字）的交叉随机截距。（需要承认，在“参与者”部分报告的预先功效分析是基于简单的t检验，这并没有完全反映最终使用的线性混合效应模型的复杂性。我们拟合了一个基线模型，测试了练习方法（预测试、后测试、复制）、回忆测试延迟（24小时 vs. 7天）及其交互作用，然后进行了成对的Tukey校正比较。额外的探索性模型检验了单词频率或笔画数的影响。所有模型都使用R语言中的lme4包（版本1.1.34）进行拟合（Bates等人，2015年）。

6 结果

6.1 练习阶段的表现

通过预测试，平均准确率从第一次尝试的0.47（±0.23）提高到了第二次尝试的0.67（±0.16），表明半个汉字的提示确实提高了表现，这与预期一致。然而，第一次尝试的相对较高准确率表明参与者对汉字有一定的先验知识——这是我们稍后在条件分析中会讨论的问题。对于后测试，准确率从第一次回忆尝试的0.59（±0.16）提高到了第二次尝试的0.79（±0.14），反映了后测试之前的教学阶段的影响。

6.2 回忆测试的表现

基线线性混合效应模型检验了练习方法（预测试、后测试、复制）和回忆测试延迟（24小时 vs. 7天）对回忆表现的影响，包括参与者和项目的交叉随机截距，以控制个体和项目的差异性。练习方法、回忆测试延迟及其交互作用显著影响了回忆分数（见表1中的成对比较）。总体而言，无论延迟如何，后测试的回忆效果最好（M=0.86，SD=0.12），显著优于预测试（M=0.77，SD=0.17）和复制（M=0.63，SD=0.03）（所有p值<0.001，ds≥0.25；见表1中的个别效应大小和95%置信区间）。预测试也显著优于复制（p<0.001，d=0.37）。回忆测试延迟没有显著的总体效应，7天时的分数（M=0.73，SD=0.11）与24小时时的分数（M=0.78，SD=0.09）在统计上没有差异（p=0.156，d=-0.13）。

6.2.1 单词频率和每个汉字的笔画数的影响

为了检验单词频率是否影响回忆效果，我们拟合了包括频率作为预测因子的补充线性混合效应模型。我们测试了四种不同的随机效应结构。第一个模型作为基线规范，后续模型是对该模型的系统简化。第一个模型包含参与者、项目和频率的随机截距，得到了一个单一的拟合结果。第二个模型去除了频率作为随机效应，但并未被选择，因为理论上预期频率会表现出随机变异性，因此需要将其作为随机效应包括在内。第三个模型去除了频率作为预测因子的因素，同样得到了一个单一的拟合结果。最后，第四个模型去除了项目作为随机截距的因素，也是单一的拟合结果。在这个模型中，频率对回忆分数没有显著影响（b=-0.01，p=0.563），但这个结果应谨慎解读，因为它没有考虑到项目级别的方差。在后续的模型中，包括了每个字符的笔画数量，这个模型是非奇异的，并显示出笔画数量对记忆保持有显著的正面影响（b = 0.06，p = 0.025）。因此，回忆能力不受频率的影响，但对于笔画更多的字符来说，回忆能力有所提高——这是一个反直觉的发现，可能反映了更费力检索的项目有更好的记忆保持。后两个模型显示了练习方法以及练习方法和记忆测试延迟之间的交互作用对记忆得分有显著影响，这与基线模型相似。

6.2.2 条件分析
鉴于预测试中的成功猜测率高于预期，我们通过一系列条件分析探讨了先前知识的作用。具体来说，我们分别计算了通过预测试学习的项目和最初猜对的项目的平均记忆测试表现，以及最初猜错的项目。在24小时后的延迟测试中，最初猜对的项目表现（M = 0.92，SD = 0.27）显著高于最初猜错的项目（M = 0.65，SD = 0.48）。这种模式在7天后的延迟测试中再次出现，最初猜对的项目（M = 0.94，SD = 0.25）的表现仍然优于最初猜错的项目（M = 0.59，SD = 0.49）。这些结果共同表明，预测试观察到的好处可能来源于成功检索、错误生成和错误纠正的混合效应。最初猜对的项目被记得特别好，而最初猜错的项目则有较小的提升。然而，需要注意的是，这些条件比较不能直接与通过复制学习的项目进行比较，因为那些项目不能以同样的方式分开。

6.2.3 顺序效应
由于所有学习会议都在同一天连续进行，与常规课程同时进行，我们通过检查所有三个平衡重复实验的平均记忆表现来考虑潜在的顺序效应。尽管在24小时延迟测试中条件之间的差异不那么明显，但关键发现——即预测试和后测试在7天延迟时优于复制——仍然是一致的。

7 实验2
实验1表明，对于学习母语拼写的中国人来说，预测试和后测试有显著的好处。在此基础上，实验2检验了类似的益处是否也适用于学习字母表L2语言。

8 方法
该实验已在以下网址预先注册：https://aspredicted.org/ndhm-v7th.pdf。

8.1 参与者
实验2在实验1之后进行，于2024年12月结束，在同一所学校进行，并遵循相同的伦理批准和同意程序。参与者的特质和样本大小符合实验1的要求。这些学生从三年级开始接受英语作为第二语言的教学。他们的英语课程内容包括阅读和写作技能，包括字母、单词、句子和段落的知识。学生们之前已经接受了系统的字母-发音对应关系和基本音素教学，具备了足够的音节和新兴音素意识，能够尝试基于音系的拼写。

8.2 设计
该设计与实验1大体相同，最大的变化是将学习材料改为英语拼写单词。

8.3 材料
学习材料包括48个从人民教育出版社（PEP）教材中选取的英语单词，这些单词是与三年级教师协商后确定的（见表B1）。这些单词通常在四年级和五年级教授。选择这些单词是基于它们的发音可以在学生的教学范围内被解析，确保大多数目标单词能够根据学生现有的英语知识合理地生成。单词长度从2个到6个字母不等。对八名三年级学生进行的初步测试显示，平均拼写准确率为0.27（SD = 0.16），尽管随后观察到了更好的表现。教师们强烈支持使用这些单词，因为它们与即将学习的课程内容相关。48个单词被分为三个平衡的列表（A、B和C），每个列表包含16个单词。努力在字母数量（列表1：2-6个字母；列表2：3-6个字母；列表3：3-5个字母）和Kucera-Francis单词频率（每百万出现1到2852次）的基础上匹配难度。每个列表内的单词顺序是固定的，但事先进行了随机化。

8.4 程序
该程序几乎与实验1相同，不同之处在于48个汉字被替换为48个英语单词。参与者还有20秒的时间来书写或练习每个英语单词。在预测试中，第一次尝试仍然是在听觉线索的引导下进行的，而第二次尝试则在部分视觉线索（在这种情况下是半个字母）和听觉线索的引导下进行的。

8.5 评分和分析计划
参与者的回答由一位有经验的小学英语教师评分，该教师不知道练习方法。每个正确拼写的单词得一分；任何字母的遗漏或错误都会使回答被视为不正确。总分反映了正确书写的单词数量。数据分析遵循与实验1相同的计划，使用线性混合效应模型。拟合的模型包括一个基线模型和分别包含单词频率和单词长度作为预测因子的模型，所有模型都考虑了参与者和项目（单词）的交叉随机截距。

9 结果
9.1 练习阶段的表现
在预测试的情况下，第一次尝试的平均准确率为0.52（±0.29），第二次尝试时提高到0.68（±0.25），表明部分单词线索确实提高了表现，正如预期的那样。猜测的准确性高于初步测试中的准确性（然而，在英语中，语音拼写可能会偶然产生正确的拼写，从而可能夸大了猜测分数），正如实验1中我们将要讨论的那样，在后续的条件分析中会回到这个问题。对预测试回答的检查显示，许多拼写错误在语音上是合理的（例如，“mauce”拼成“mouth”），表明学生们积极应用了语音和语义知识，而不仅仅是随机产生字母串。在后测试中，平均准确率从第一次检索尝试的0.67（±0.25）提高到第二次的0.80（±0.18）。

9.2 记忆测试表现
基线线性混合效应模型评估了练习方法（预测试、后测试和复制）和记忆测试延迟（24小时 vs 7天）对记忆测试表现的影响，包括参与者和项目（单词）的交叉随机截距。练习方法显著影响了记忆得分（见表2的成对比较），后测试和预测试都比复制产生了更高的记忆保持率（M = 0.42，SD = 0.04；M = 0.42，SD = 0.05，p值 < 0.001，ds ≥ 0.26；见表2了解各个效应大小和95%置信区间），而后测试和预测试之间没有显著差异（p = 0.943，d = 0.02）。记忆测试延迟并没有显著影响表现，7天时的得分（M = 0.33，SD = 0.05）在统计上与24小时时的得分（M = 0.43，SD = 0.07）没有差异（p = 0.090，d = 0.23）。值得注意的是，总体记忆保持率显著低于实验1（约40% 对比约80%），这可能反映了英语不是学生的母语。表2 展示了练习方法对记忆测试表现的影响的成对比较。

9.2.1 单词频率和每个单词的字母数
与第一个实验类似，我们拟合了包括频率作为记忆预测因子的补充线性混合效应模型，测试了不同的随机效应结构来解决非奇异拟合问题。第一个模型包括参与者、项目和频率的随机截距，是非奇异的。第二个模型去掉了频率作为随机截距，也是非奇异的，但由于理论上预期频率会出现随机变异性，因此认为有必要将其作为随机效应包括在内。第三个模型去掉了频率作为预测因子，也是非奇异的，但没有被选中，因为它无法测试频率的预测/固定效应。最后一个模型去掉了项目作为随机截距，同样是非奇异的，在这里进行了报告。这个模型显示出单词频率对记忆保持有显著的正面影响（b = 0.05，p = 0.024），但这个结果应该谨慎解释，因为它没有考虑项目级别的方差。随后的模型包括了每个单词的字母数量，是非奇异的，并显示出记忆得分有显著的负面影响（b = -0.11，p = 0.004），表明较长的单词更难拼写。在后两个模型中，效果与预期一致：频率较低和较长的单词更具挑战性。重要的是，在这些分析中，基线模型中观察到的练习方法和记忆测试延迟的效果是一致的。

9.2.2 条件分析
实验2中对预测试项目的条件分析显示，最初猜对的项目在24小时延迟后的记忆保持率（M = 0.95，SD = 0.23；7天延迟后：M = 0.86，SD = 0.35）高于最初猜错的项目（24小时延迟后：M = 0.27，SD = 0.45；7天延迟后：M = 0.23，SD = 0.42）。与实验1一样，这些结果表明预测试的好处可能反映了成功检索、错误生成和错误纠正的结合。

9.2.3 顺序效应
与之前的实验一样，我们还检查了每个实验的所有三个平衡重复实验的平均记忆测试表现，以检查可能的条件顺序效应。我们再次观察到，参与者经历的条件顺序并没有显著改变预测试和后测试相对于复制的优势。

10 讨论
目前的发现证明了两种 prominent 的练习测试方法——预测试和后测试——对于字母表和非字母表语言的拼写习得都是有效的。与第一预测一致，这两种方法都优于被动复制，支持了预测试和后测试涉及不同但互补的认知机制的观点。与第二预测一致，预测试和后测试的相对好处在初始延迟测试时在中文和英文之间有所不同，这反映了这些机制与正字法特性之间的潜在交互作用。最后，与第三预测一致，尽管初始学习路径不同，预测试和后测试的长期好处在1周后趋于一致，表明这两种方法最终都促进了高质量的正字法表征的形成。这些结果与拼写习得的双重机制解释相符，这种解释认为预测试和后测试涉及不同的认知路径——预期激活与通过检索的巩固。这些效应的跨语言普遍性，尽管在时间动态上有特定的书写系统差异，表明这些认知机制代表了超越特定正字法表面特征的人类学习普遍原则。

11 对双重路径模型的理论意义
我们的结果为当前的拼写习得模型做出了贡献，表明需要纳入不同形式的练习所涉及的独特认知机制。传统的双重路径模型（Barry 1994；Tainturier 和 Rapp 2001）主要针对字母表书写系统提出，认为可以通过词汇路径（检索整个单词的表征）或亚词汇路径（通过声音-字母对应关系组装拼写）来实现准确的拼写。尽管这个模型有助于解释熟练的拼写，但它没有充分解释这些路径是如何在学习过程中建立的。我们的发现表明，预测试和后测试对路径的形成有不同的贡献。预测试优先通过激活基于意义的表征来参与语义到正字法的路径，而后测试则通过重复检索练习来加强语音到正字法的路径。这种区别有助于解释观察到的特定于书写系统的时间动态：汉字的视觉复杂性和语义透明度可能最初更受益于后测阶段的巩固过程，而英语拼写的音位基础可能通过前测阶段涉及的预测过程得到更好的支持。

**12 前测和后测背后的机制**

我们的双重机制解释为每种练习方法提出了具体的认知过程。在前测阶段，似乎有两种主要机制在起作用：

**12.1 前测阶段的认知过程**

**12.1.1 预期知识激活**
在学习者遇到正确的拼写之前，他们可能会激活现有的语义网络、部分音位表征和零散的正字法知识。如果这种预期激活发生，就会创建一个认知框架，使学习系统能够将新的正字法信息与现有的知识结构整合起来（Grimaldi和Karpicke 2012）。对于拼写来说，这意味着激活与目标拼写共享特征的字母模式、形态单位或字符组成部分。

**12.1.2 注意力集中机制**
即使生成的内容是错误的，也会在随后呈现正确拼写时产生对诊断特征的注意力增强。这种集中的注意力可能是由预测错误信号触发的——生成形式与正确形式之间的不匹配可能会将认知资源导向最具信息量的正字法特征（Potts和Shanks 2014）。这种机制可以解释为什么在前测阶段的错误生成会增强学习效果，尽管应该强调这在我们行为数据的背景下仍然是推测性的。

**12.2 后测阶段的认知过程**

后测可能涉及不同的机制，具体描述如下：

**12.2.1 检索路径形成**
每次检索尝试都可能加强连接音位/语义线索与正字法表征的神经路径。与被动复述不同，主动检索可能会创建并强化从输入线索（口语单词、含义）到输出表征（书面形式）的特定路径。这种路径的形成可能是累积的——每次成功的检索都会使未来的访问更加流畅和自动化（Karpicke和Roediger 2008）。

**12.2.2 通过检索巩固记忆**
检索行为本身可能通过再巩固过程修改和加强记忆表征。当正字法形式从记忆中检索出来时，它们会暂时变得不稳定，然后被重新编码为更强、更易获取的形式（Roediger和Butler 2011）。

**13 扩展词汇质量假设**

这种双重机制解释与词汇质量假设（Perfetti 2007）保持一致，并阐明了不同的教学方法如何有助于构建高质量的正字法表征。前测似乎增强了正字法形式的语义绑定，创建了更丰富、更精细的表征。相反，后测通过基于检索的巩固增加了这些表征的精确度和可访问性。两种方法在更长的保留间隔下的结合表明，语义丰富性和检索强度对于强大的正字法学习都是必要的。

**14 跨语言含义和心理语言学粒度理论**

观察到的特定于书写系统的时间动态——后测对中国表现出早期优势，而对英语来说，24小时后的前测显示出统计学上显著的好处，而数值上类似的后测优势却没有达到显著性——为认知机制如何与正字法属性相互作用提供了新的见解。这些发现支持了心理语言学粒度理论的扩展版本（Ziegler和Goswami 2005），该理论提出涉及拼写的认知单元在不同书写系统中是不同的：透明字母系统中的音素、不透明字母系统（如英语）中的韵音组合，以及中文中的 Morpho-syllabic 单位。我们的结果表明，该理论不仅应考虑正字法单元的大小，还应考虑最适合获取它们的认知过程。对于汉字学习来说，汉字的视觉复杂性和语义透明度可能最初特别有利于后测的巩固过程，因为学习者需要加强精确的视觉-正字法表征。然而，英语中许多音素-图素映射的任意性可能更多地受益于前测的预期过程（这有助于学习者形成关于音-拼写关系的初步假设），尽管应该强调的是，前测和后测最终在7天测试中都支持了相当的保留效果。此外，观察到的中文和英语拼写学习的差异也可能反映了编码视觉-正字法信息与音位信息的难度的差异，而不仅仅是纯粹的不同记忆机制。

**15 前测和后测的互补性质**

我们的发现的一个关键理论洞察是，前测和后测似乎通过不同的但互补的认知过程在拼写学习中创建了强大的正字法表征。前测可能利用预测错误的潜在学习优势——错误的尝试激活了相关的知识结构，并创造了一种认知准备状态，从而增强了后续的编码。由此产生的学习益处挑战了传统的无错误学习强调，并与当代关于认知中预测处理的理论（Clark 2013）一致。相比之下，后测可能通过使用依赖性可塑性加强已经形成的表征。每次成功的检索都使未来的访问更加可能，创建出越来越稳定的正字法表征。这些过程的互补性表明，最佳的拼写教学可能会按顺序使用这两种方法：前测通过预期激活来建立初始表征，然后后测通过检索来巩固这些表征。

**16 推动跨语言读写理论**

我们的发现为 growing 的跨语言研究做出了贡献，展示了拼写学习的普遍和特定于书写系统的方面（Daniels和Share 2018；Frost 2012）。两个实验中都观察到的练习测试相对于复制的好处表明，主动生成和检索过程是人类学习的基础，无论书写系统如何。这种普遍性支持了提出不同文化中读写学习共同认知架构的理论（Dehaene等2015；Perfetti等2013）。然而，中文和英语学习之间的时间动态差异表明，普遍的认知机制可能如何与特定于书写系统的需求相互作用。后测对中国字符的初始优势可能反映了在表意系统中对视觉-正字法处理的更高要求，在这些系统中，复杂视觉模式的巩固至关重要（Ye和McBride 2022）。这种指令后的即时检索练习可能在视觉-空间表征衰减之前加强它，这对于非字母系统尤为重要，因为在这些系统中图形保真度至关重要。相反，前测对英语单词的早期好处与研究表明，预测和生成过程对学习系统性的音素-图素映射特别有益（Arciuli和Simpson 2012）。同样值得注意的是，中文以其形态-音节结构为特点，即使在熟练读者中也更依赖于词汇处理（Perfetti等2013），而英语以其字母原则为特点，允许更多的次词汇组装。也许最有理论意义的发现是，这两种效应在1周后趋于一致。这种模式强烈支持我们提出的双重机制框架：尽管前测和后测在时间动态和初始优势领域可能存在差异，但它们最终以互补的方式促进了强大的、高质量的正字法表征。前测建立了以深度编码和紧密结合的语义表征为基础，而后测通过重复检索增加了高可访问性和自动化。这些结果表明，最佳的拼写教学可能不会采用二选一的选择，而是一个理论指导的序列：使用前测通过预期激活来启动学习，然后后测通过检索来巩固这些表征。

**16 推动跨语言读写理论**

我们的发现为日益增长的跨语言研究做出了贡献，展示了拼写学习的普遍和特定于书写系统的方面（Daniels和Share 2018；Frost 2012）。两种实验中都观察到的练习测试相对于复制的好处表明，主动生成和检索过程是人类学习的基础，无论书写系统如何。这种普遍性支持了提出跨文化读写学习共同认知架构的理论（Dehaene等2015；Perfetti等2013）。然而，中文和英语学习之间的时间动态差异表明，普遍的认知机制可能如何与特定于书写系统的需求相互作用。后测对中国字符的初始优势可能反映了在表意系统中对视觉-正字法处理的更高要求，在这些系统中，复杂视觉模式的巩固至关重要（Ye和McBride 2022）。这种指令后的即时检索练习可能在视觉-空间表征衰减之前加强它，这对于非字母系统尤为重要。相反，前测对英语单词的早期好处与研究表明，预测和生成过程特别有利于学习系统性的音素-图素映射（Arciuli和Simpson 2012）。同样值得注意的是，中文以其形态-音节结构为特点，即使在熟练读者中也更依赖于词汇处理（Perfetti等2013），而英语以其字母原则为特点，允许更多的次词汇组装。也许最具理论意义的发现是，这两种效应在1周后趋于一致。这种模式强烈支持我们提出的双重机制框架：尽管前测和后测在时间动态和初始优势领域可能不同，但它们最终以互补的方式促进了强大的、高质量的正字法表征。前测建立了以深度编码和紧密结合的语义表征为基础，而后测通过重复检索增加了高可访问性和自动化。这些结果表明，最佳的拼写教学可能不涉及二选一的选择，而是一个理论指导的顺序：使用前测通过预期激活来启动学习，然后后测通过检索来巩固这些表征。

**17 对认知负荷和理想难度的启示**

我们的发现还为认知负荷理论（Sweller等2019）和理想难度框架（Bjork和Bjork 2011）在拼写学习中的应用提供了新的见解。前测和后测都比复制施加了更大的认知要求，但这些要求似乎与学习相关而非无关。这两种测试方法的卓越表现表明，它们施加的额外认知负荷——无论是通过生成尝试还是检索努力——直接有助于构建更强大的正字法表征。前测即使最初尝试大多是错误的，也有利于拼写的发现挑战了关于教育中无错误学习的传统假设（Metcalfe 2017）。我们的结果表明，生成合理拼写所涉及的认知工作——激活音位片段、考虑形态模式、应用正字法约束——为随后的学习创造了肥沃的土壤，即使具体输出是错误的。这一发现与最近关于生产性失败的研究（Kapur 2016）一致，但将其扩展到了正字法学习的领域。

**18 教育含义**

这项工作或许最重要的贡献是展示了理论进展如何直接指导教育实践。两种练习测试相对于传统复制的明显优势挑战了根深蒂固的教学方法，特别是在中文教育中，字符复制有着数百年的文化传统，并可能占用语言艺术时间的15%-20%（Li和Rao 2020；Wu等2019），以及在英语拼写教学中，练习测试的使用一直在减少（Pan等2021）。我们的发现为尊重文化实践的同时优化学习结果的教学改革提供了认知科学的基础。前测和后测在更长时间延迟时的等效性表明，教育工作者可以根据实际需要灵活实施这两种方法。前测对于引入新的拼写模式或为学生准备即将到来的课程可能特别有价值，而后测可能最适合巩固最近教授的材料。这种基于对不同认知机制理解的灵活性，使教育工作者能够做出理论指导的教学决策。应该强调的是，前测的有效性通常依赖于提供即时的正确答案反馈。在本研究中，学生在前测尝试后复制了正确答案，确保任何预期知识激活都转化为准确的学习。实施前测的教育工作者也应该提供及时的反馈。此外，将前测视为学习的机会而不是“能力测试”可能会减少潜在的焦虑。最后，我们结果中的潜在差异——后测对中国拼写最初更有益，而前测和后测对英语第二语言拼写都有类似的好处——提出了教育工作者应根据内容和语言调整练习方法的可能性。然而，在具体推荐这种调整之前，还需要进一步的研究。

**19 限制和未来研究**

有几个限制值得考虑。最关键的是，我们提出的认知机制——预期激活、注意力集中、检索路径形成和巩固——是从表现模式推断出来的，而不是直接测量的。未来使用眼动追踪或神经成像的研究可以提供过程层面的证据，检查学习者在前测错误生成后是否对诊断特征表现出更高的注意力，或者是否在练习方法之间出现了不同的神经激活模式。一个潜在的解释问题是，实验2是在实验1之后进行的，参与者相同。尽管第一手的观察表明没有疲劳的持续参与，但我们不能完全排除微妙的顺序效应，因此应该相应地解释这些结果。此外，学生对某些拼写单词的部分先前知识，如前测准确率高于预期，可能通过天花板效应压缩了观察到的条件差异。尽管教师验证了这些单词没有被教授，并且线性混合效应模型控制了项目难度，但可能无法推广到完全不熟悉的单词。未来的研究可以使用人工正字法来确保真正的基线零性能。此外，我们的二元评分系统虽然确保了客观性，但可能错过了部分信用方法可能捕捉到的拼写准确性的细微变化。尽管我们在1周后测量的保留时观察到了前测和后测效应的收敛，但还需要进一步的研究来确定学习的长期稳定性。此外，我们专注于孤立单词的学习可能无法捕捉这些机制在连接文本或有意义的上下文中的运作方式。未来的研究应该检查个体认知能力的差异如何调节练习方法的有效性，跨语言的神经成像研究可以揭示为什么某些机制对特定的书写系统更为有效。最后，尽管我们的样本量足以检测到中等到大的效应，但事后分析表明，在线性混合效应模型下，一些交互效应的功效相对较低。因此，需要更大样本的进一步研究来更稳健地调查练习方法×延迟的交互作用。

**20 结论**

本研究通过展示不同的练习方法涉及不同的认知机制，这些机制在不同的书写系统中运作，推进了我们对拼写学习的理论理解。我们提出的双重机制解释——前测中的预期激活和后测中的检索巩固——为理解高质量正字法表征的形成提供了一个框架。这些机制的跨语言普遍性，结合特定书写系统的时间动态特性，表明了一种通用的认知架构，用于拼写能力的习得，该架构能够灵活适应不同书写系统的需求。我们认识到，所提出的认知机制仍然是基于行为模式推断出的理论构建，并非直接观察到的过程。尽管如此，两种不同书写系统中的结果一致性为我们的双机制解释提供了支持，同时也强调了未来研究中需要通过过程层面的测量来直接验证这些理论假设。这些理论见解具有直接的实际意义，为超越传统文化局限的拼写教学提供了基于证据的基础。随着全球教育系统努力在日益多元语言的世界中优化读写能力教学，理解支持跨书写系统拼写习得的认知机制不仅是一个理论上的必要，也是一个实际的迫切需求。这项工作朝着这一目标迈进了一步，展示了严谨的实验研究如何能够阐明教育实践的认知基础。

作者贡献：
董睿：概念化、研究、撰写原始稿、方法论构建、验证、数据管理、项目协调、资金争取。
Indrajaya Alyssa：正式分析、验证、数据管理、软件使用、资源提供。
尹莉：撰写内容审阅与编辑、撰写原始稿、指导工作、资金争取。
Pan Steven C.：概念化、撰写原始稿、撰写内容审阅与编辑、数据可视化、指导工作。

资金支持：
本研究得到了中国国家留学基金管理委员会的资助。

利益冲突声明：
作者声明不存在任何利益冲突。

附录A：
表A1. 实验1中使用的汉字。
| 序号 | 汉字 |
|-----|-------|
| 1 | 郊 |
| 25 | 舒 |
| 2 | 感 |
| 3 | 差 |
| 4 | 脖 |
| 5 | 柔 |
| 6 | 梨 |
| 7 | 狮 |
| 8 | 摇 |
| 9 | 湿 |
| 10 | 险 |
| 11 | 烦 |
| 12 | 登 |
| 13 | 测 |
| 14 | 仍 |
| 15 | 诚 |
| 16 | 翅 |
| 17 | 养 |
| 18 | 库 |
| 19 | 陌 |
| 20 | 弃 |
| 21 | 跃 |
| 22 | 匆 |
| 23 | 效 |
| 24 | 有 |
| 25 | 奔 |
| 26 | 符 |
| 27 | 功 |
| 28 | 牵 |
| 29 | 配 |
| 30 | 名 |
| 31 | 爸爸 |
| 32 | 鸟 |
| 33 | 妈妈 |
| 34 | 可以 |
| 35 | 美好 |
| 36 | 老 |
| 37 | 狗 |
| 38 | 熊猫 |
| 39 | 说 |
| 40 | 眼 |
| 41 | 学校 |
| 42 | 快 |
| 43 | 父亲 |
| 44 | 鱼 |
| 45 | 老虎 |
| 46 | 玩具 |
| 47 | 手 |
| 48 | 两个 |
| 49 | 三 |
| 50 | 去 |
| 51 | 好 |
| 52 | 伙伴 |
| 53 | 说 |
| 54 | 学校 |
| 55 | 快速 |
| 56 | 小 |
| 57 | 高 |
| 58 | 三 |
| 59 | 有 |
| 60 | 动物园 |

附录B：
表B1. 实验2中使用的英文单词。
| 序号 | 英文单词 |
|-----|---------|
| 1 | Air |
| 25 | Help |
| 26 | Like |
| 3 | Apple |
| 27 | Lion |
| 4 | Aunt |
| 28 | Listen |
| 29 | Baby |
| 30 | Big |
| 31 | Miss |
| 32 | Bird |
| 33 | Mother |
| 34 | Can |
| 35 | Nice |
| 36 | Old |
| 37 | Dog |
| 38 | Panda |
| 39 | Say |
| 40 | Eye |
| 41 | School |
| 42 | Fast |
| 43 | Father |
| 44 | Fish |
| 45 | Tiger |
| 46 | Good |
| 47 | Toy |
| 48 | Hand |
| 49 | Two |
| 50 | Have |
| 51 | Go |
| 52 | Three |
| 53 | Go |
| 54 | Good |
| 55 | Toy |
| 56 | Hand |
| 57 | Two |
| 58 | Have |
| 59 | Zoo |

数据可用性声明：
本研究的数据已公开发布在Open Science Framework平台：https://osf.io/quz8h/?view_only=af603bd5620e41279146efb96034aeb5。

热点排行