4岁至14岁儿童接受性词汇量和阅读理解能力的发展模式：一种序列潜在增长模型设计

《LEARNING AND INDIVIDUAL DIFFERENCES》：Developmental patterns of receptive vocabulary and reading comprehension from age 4 to 14: A sequential latent growth model design

【字体：大中小】 时间：2026年04月29日 来源：LEARNING AND INDIVIDUAL DIFFERENCES 9

编辑推荐：

　　莎莉·A·拉尔森 | 弗洛丽娜·埃尔贝利新英格兰大学教育学院，澳大利亚 **摘要** 早期词汇知识是预测儿童阅读理解能力的最著名因素之一。然而，接受性词汇的增长是否能够预测后期阅读理解能力的发展，这一点受到的关注较少。本研究使用了两个具有代表性的澳大利亚儿童样本（

　　莎莉·A·拉尔森 | 弗洛丽娜·埃尔贝利
新英格兰大学教育学院，澳大利亚

**摘要**
早期词汇知识是预测儿童阅读理解能力的最著名因素之一。然而，接受性词汇的增长是否能够预测后期阅读理解能力的发展，这一点受到的关注较少。本研究使用了两个具有代表性的澳大利亚儿童样本（样本量分别为4983人和4570人），来考察4至8岁儿童接受性词汇的发展模式以及8至14岁儿童阅读理解能力的发展情况。单变量潜在增长模型显示，在两个样本中，接受性词汇和阅读能力的截距与斜率因素之间存在负相关关系，这表明在每个领域取得最大进步的儿童都是那些最初技能相对较差的儿童。4岁时的接受性词汇量能够正向预测8岁时的阅读能力，但会负向预测之后的阅读能力发展轨迹，即学龄前接受性词汇量较强的儿童在4至10年后的阅读理解能力提升最慢。8至14岁期间，接受性词汇的增长与阅读理解能力的增长并无关联。

**教育意义**
本研究探讨了学龄前三年内接受性词汇发展与中期阅读理解能力发展之间的联系。尽管这两方面的读写能力之间存在密切关联，但早期接受性词汇的增长速度与8至14岁期间儿童阅读能力的发展速度并无关联。因此，支持阅读理解能力的发展可能更依赖于特定学科词汇的教学、背景知识的积累或阅读理解策略的教授，而不仅仅是扩大儿童的接受性词汇量。

**1. 引言**
数十年的阅读研究证明，早期儿童词汇知识是预测阅读理解能力的重要因素（Quinn & Wagner, 2018; Storch & Whitehurst, 2002）。许多研究考察了词汇对阅读理解能力的预测作用，要么同时测量这两种能力，要么采用在不同时间点分别测量它们的方法（例如，在早期测量词汇量，在几个月或几年后测量阅读理解能力；有关综述，请参见Quinn & Wagner, 2018; Hjetland et al., 2020）。然而，同时测量或长期相关性的研究方法对这两个领域的发展模式提供的信息有限（Rogosa et al., 1982），也无法说明一个领域的发展与另一个领域的发展之间的关联程度。随着儿童年龄的增长，他们的词汇量会增加（Song et al., 2015; Westrupp et al., 2020），阅读理解能力也会提高（Francis et al., 1996; Ricketts et al., 2020）。然而，早期接受性词汇的快速增长是否会导致后期阅读能力的更快提升，这一问题尚未得到充分研究。本研究通过评估4至8岁期间三次测量的接受性词汇量是否能够预测8至14岁期间四次标准化阅读理解测试的结果，填补了这一空白。

**1.1 术语定义**
在本研究中，我们将接受性词汇定义为词汇知识的一个维度（另一个维度是表达性词汇）。它指的是读者能够识别、检索意义并在上下文中理解的词语。接受性词汇是支持拼写学习和阅读理解能力的词汇知识基础的一部分（Share, 1995）。它主要与词汇广度（即心理词汇量的大小）相关，而非词汇深度（即词汇知识的丰富程度；Tannenbaum et al., 2006）。诸如Peabody图片词汇测试（PPVT）之类的测量工具旨在评估词汇广度，即个体掌握的词汇范围（Tannenbaum et al., 2006）。我们将阅读理解能力视为读者知识基础与印刷文本之间的互动过程（Kintsch, 1988），这一过程涉及通过书面语言提取和构建意义（RAND阅读研究小组, 2002）。我们关注接受性词汇而非表达性词汇的原因有三点：首先，从发展角度来看，接受性词汇是最早出现的词汇维度，通常先于表达性词汇的发展（Burger & Chong, 2011）；其次，接受性词汇处于词汇获取效率与词汇广度的交叉点（Perfetti & Stafura, 2014）；最后，元分析和教学研究表明，阅读理解能力随着词汇量的增加而提高，这与词汇获取效率理论一致（Perfetti, 2007）。

**1.2 接受性词汇增长与阅读理解能力增长之间预测关系的理论基础**
已有研究表明，接受性词汇能够预测任何阶段的阅读理解能力（参见Elleman et al., 2009）。当前的研究提出了一个不同的问题：为什么早期儿童接受性词汇的增长能够预测后期学校教育中的阅读理解能力发展？换句话说，哪些发展机制将词汇意义知识的增长与构建情境模型和理解文本的能力的增长联系起来？当代阅读理论，包括词汇质量假说（Perfetti, 2007）、自我教学假说（Share, 1995）和语言效率理论（Perfetti, 1985），都认为接受性词汇的增长反映了新词汇意义加入儿童词汇库的过程。随着儿童接受性词汇的增长，其心理词汇库中的词汇表征在质量和可访问性方面得到改善，从而提高了词汇处理和文本意义构建的效率。最近的研究强调，学习词汇表征的能力本身就是阅读发展的一个机制（Deacon et al., 2024），教学研究也证实，丰富的词汇教学能够促进理解能力的提升（Elleman et al., 2009）。

**1.2.1 词汇质量假说**
词汇质量假说认为，词汇通过语音、拼写和语义代码进行表征。熟练的阅读依赖于这些代码在儿童心理词汇库中得到明确指定和紧密整合的高质量（Perfetti, 1985; Perfetti, 2007; Perfetti & Hart, 2002）。需要注意的是，词汇表征的质量并非固定不变。随着儿童学习新词汇、完善现有词汇及其意义以及加强代码之间的联系，词汇质量会不断改进。接受性词汇的增长正是这种发展的体现。随着儿童接受性词汇的增长，他们的语义代码变得更加明确、分化，并与语音和拼写（以及形态学）代码之间的联系更加紧密。这些变化提高了词汇表征的精确度和可访问性，从而直接促进了阅读理解能力。

**1.2.2 自我教学假说与词汇知识的累积**
Share的自我教学假说（Share, 1995）解释了词汇增长如何长期影响阅读理解能力。每当儿童将书面单词解码为口语形式时，就形成了一个自我教学的契机（Share, 1995）。每次成功的解码过程都让儿童有机会独立获取关于该单词的新拼写、语义和形态学信息。儿童从这种自我教学机制中受益的程度因个体差异而异，取决于其现有的接受性词汇量。因此，接受性词汇量丰富的儿童更容易将解码后的单词映射到语义表征中，从而更成功地推断未知单词的意义并巩固这些意义。因此，接受性词汇的增长会增加“自我学习”词汇的概率。随着时间的推移，重复的自我教学过程会在儿童词汇库中引发质的改变。这种累积过程意味着，接受性词汇的更快增长应能促进更高效的词汇学习，进而支持后期阅读理解能力的发展。

**1.2.3 语言效率理论与认知资源的分配**
语言效率理论（Perfetti, 2007）解释了词汇增长为何能预测阅读理解能力的发展。该理论认为，当词汇获取变得自动化时，给定词汇表征的语义检索速度会加快。这样一来，用于词汇识别的认知资源减少，更多的认知资源可以用于构建情境模型、进行推理和预测等阅读理解策略，从而提高理解能力。接受性词汇的增长直接促进了这一过程，因为它提高了从阅读中检索词汇意义的效率。因此，我们可以预期接受性词汇的增长会对阅读理解能力产生直接的发展影响，因为它改变了阅读过程中所需的认知努力平衡。接受性词汇增长较快的儿童理论上会在理解能力上表现出更快的提升，因为他们的词汇处理过程会更加高效。这一机制得到了教学实验的证实，这些实验表明词汇训练能够影响理解能力（Beck等人，1982年），并能够改善阅读理解困难（Marulis和Neuman，2010年），同时高效地获取语义信息能够提升理解能力（McKeown等人，1983年）。此外，有大量证据支持接受性词汇增长与阅读理解增长之间的因果关系，这一点在Stanovich的Matthew效应理论（1986年）中得到了体现。随着孩子们在不同情境中接触到词汇，每次的情境接触都成为他们逐步理解词汇含义的学习机制，从而促进他们的理解能力发展。起始时能力较低的学生随着时间的推移应该比表现较好的同龄人进步得更少（即累积增长模式）。Matthew效应理论提出的相互作用动态关系解释了为什么早期的接受性词汇差异可能会演变成阅读理解能力的差异（即斜率差异），而不是保持静态的水平差距（例如Killingly、Graham等人，2025年）。越来越多的实证证据也表明，早期的接受性词汇是预测未来几年阅读理解能力增长的指标。例如，对挪威学生的几项研究（Hjetland等人，2019年；Lerv?g和Aukrust，2010年）表明，使用挪威语版本的PPVT测量的早期接受性词汇知识能够正向预测他们在小学后期阶段的阅读理解初始水平和增长情况。同样，Psyridou等人（2021年）的研究表明，使用芬兰语版本的PPVT测量的幼儿园时期较差的接受性词汇能够预测一组从一年级到九年级的芬兰学生中持续存在阅读困难的情况。或许最重要的是，Okkinga等人（2023年）的研究表明，词汇广度调节了青少年阅读干预的效果。尽管干预措施未能取得成功，但接受性词汇知识较低的学生在阅读方面的进步较少。然而，早期儿童时期的接受性词汇对从小学到高中阅读评估成绩增长的预测作用尚未得到广泛研究，特别是在英语国家的澳大利亚样本中。

几项研究描述了词汇的发展模式，发现无论孩子们是起点较高还是较低，无论是通过参与旨在增加词汇知识的干预措施与否（Christensen等人，2017年；Quinn等人，2015年；Marulis和Neuman，2010年；Okkinga等人，2023年），他们的接受性词汇和表达性词汇都会随时间增加。例如，Westrupp等人（2020年）的研究表明，从4岁到9岁接受性词汇增长的潜变量轨迹模型中的斜率项能够正向预测9岁时的教师报告的读写能力。据我们所知，唯一一项在青少年早期多个时间点考察词汇和阅读理解增长的研究是Ricketts等人（2020年）的研究。研究发现，由表达性词汇和接受性词汇组成的潜变量以及阅读理解能力都有积极的增长，而在初始评估（12岁）时词汇技能和阅读能力低于平均水平的学生在两个领域都取得了最大的进步。这种追赶效应被称为补偿性增长模式（Lepp?nen等人，2004年），这体现在单变量潜变量增长模型中截距项和斜率项之间的负相关关系上。补偿性增长与经常提到的Matthew效应相反。

尽管普遍预期Matthew效应应该普遍存在，但在阅读的纵向研究中并不总是观察到这种现象（例如Larsen等人，2022年；Larsen和Little，2023年；Johnson等人，2025年；Pfost等人，2014年）。Ricketts等人（2020年）也在结合了阅读和词汇两个领域的模型中观察到了它们之间的强相关性（即多变量模型）。然而，最终保留的模型并没有包括不同领域之间截距项和斜率项的相关性。此外，该模型将接受性词汇和表达性词汇的测量合并为一个潜在构念。因此，无法从他们的研究中确定在青少年早期接受性词汇的更强进步是否与阅读的更快增长相关。

本研究的目的是考察幼儿期接受性词汇（4至6岁）与儿童中期阅读理解（8至14岁）之间的发展关系。理论和实证研究表明，早期词汇增长对后期阅读增长的重要性（例如Beck和McKeown，2007年；Elleman等人，2009年；Marulis和Neuman，2013年；McKeown等人，1983年）表明，接受性词汇应该能够正向预测阅读理解能力，且早期词汇增长最快的儿童应该在阅读理解方面取得最大进步（即Matthew效应；Stanovich，1986年）。接受性词汇通过Peabody图片词汇测试（PPVT）（Rothman，2010年）进行测量，阅读理解能力则通过全国读写和计算能力评估计划（NAPLAN）进行测量，这是所有澳大利亚学生都要参加的标准化阅读评估。我们分别对每个领域拟合了潜变量增长模型，以考察接受性词汇的初始状态和增长（研究问题1）以及阅读理解（研究问题2）。接下来，我们拟合了一个包含两个领域的扩展潜变量增长模型，以了解早期接受性词汇的掌握情况和增长如何预测8岁时的阅读理解能力发展（直到14岁；研究问题3）。

研究问题1：接受性词汇的增长模式是什么？我们的初步目标是考察从学前班到三年级期间接受性词汇的增长模式，分析其增长是否平均呈线性或非线性（即在所有评估中以相等的增量增加），以及个体间的增长轨迹是否变宽（即Matthew效应，累积增长模式）或在这个年龄范围内变窄（即补偿性增长模式）。我们预测从4岁到8岁接受性词汇技能会平均增加，并且这种增长是非线性的，即第一次和第二次评估之间的增长增量会减少，而第二次和第三次评估之间的增量会增加（Christensen等人，2017年；Duff等人，2015年；Logan等人，2023年；Quinn等人，2015年；Westrupp等人，2020年）。鉴于类似年龄段的词汇发展研究结果不一致，我们事先没有预测接受性词汇的差距是会变宽还是变窄（例如Duff等人，2015年；Kempe等人，2011年）。

研究问题2：阅读理解的增长模式是什么？我们的第二个目标是考察从8岁到14岁期间阅读理解的增长模式。与研究问题1类似，我们分析了增长是否平均呈线性或非线性，以及阅读理解轨迹是否受到Matthew效应或补偿性增长模式的影响。我们预测阅读理解能力在四次评估（8岁到14岁）期间会呈正向增长，并且这种增长的功能形式是非线性的，随着儿童进入青春期会减缓（例如Francis等人，1996年；Hill等人，2008年；Larsen等人，2022年；Larsen和Little，2023年）。根据之前关于儿童中期到青少年早期阅读发展的研究（特别是使用NAPLAN阅读评估的研究），我们在单变量阅读模型中预测了补偿性增长模式。

研究问题3：接受性词汇的增长模式在多大程度上预测了后期阅读理解的增长模式？最后，我们考察了初始接受性词汇水平或这种先决技能的增长速度是否预测了阅读的初始水平和增长。我们预期初始接受性词汇水平将正向预测阅读理解的起点（截距）和增长速度（斜率）（Quinn等人，2015年；Song等人，2015年；Verhoeven等人，2011年）。也就是说，那些在幼儿期具有较强接受性词汇技能的儿童在三年级时应该具有高于平均水平的阅读理解能力，并且在后期阅读理解方面取得最大进步。然而，由于缺乏关于接受性词汇增长对阅读增长预测作用的研究，我们没有对两个领域的斜率项之间的关系进行预测。

在最终模型中，我们纳入了两个协变量：社会经济地位（SEP）和幼儿期认知能力。我们纳入这些变量的原因有两个：首先，SEP和认知能力都能预测儿童的词汇知识（Christensen等人，2017年；Song等人，2015年）和阅读技能（Hulslander等人，2010年；Marks，2016年）。因此，通过控制这些外生变量上的个体差异来分析模型系数，可以进一步了解词汇和阅读理解背后的发展过程。其次，本研究中获得的纵向数据缺失可能与SEP或认知能力有关，或者两者都有关系。因此，我们在分析词汇和阅读结果的数据缺失时使用了这些变量，并在最终分析中将SEP和认知能力作为辅助变量。这种方法可以减少模型估计的偏差（Enders，2013年）。

2. 方法
2.1. 参与者
从2004年开始，澳大利亚儿童纵向研究（LSAC；Soloff等人，2005年）招募了两组澳大利亚儿童样本，一组是幼儿园 cohort，另一组是出生 cohort（分别称为K Cohort和B Cohort），以研究从幼儿期到成年的发展和福祉。采用了两阶段聚类设计来选择邮政编码样本和这些邮政编码内的儿童样本。全国共抽取了311个邮政编码，每个 cohort招募了约5000名儿童。初始样本大致代表了澳大利亚普通人口，并且与澳大利亚儿童的区域分布成比例，其中63%居住在城市地区，37%居住在区域或农村地区（Cooklin等人，2025年；Misson和Sipthorp，2007年）。自研究开始以来，这些儿童每两年被跟踪一次。在研究的第一个阶段（2004年），收集了关于家庭的人口统计信息，以及关于儿童健康、身体和社会发展以及时间利用情况的调查数据。初始阶段和后续阶段的测量由父母、幼儿园教师和儿童本人完成（澳大利亚家庭研究所[AIFS]，2005年）。

本研究使用了K Cohort（N = 4983名儿童，50%为女性）和B Cohort（N = 4570名儿童，49%为女性）的数据。分别对每个 cohort的数据进行了分析。样本选择过程确保每个日历月份出生的儿童在研究中的比例相同（Soloff等人，2005年）。K Cohort的儿童在招募时至少4岁，B Cohort的儿童至少6个月大。两个 cohort的人口统计特征与招募时同龄的澳大利亚儿童人口相似（Cooklin等人，2025年）。具体来说，少数儿童具有原住民或托雷斯海峡岛民背景（K Cohort = 3.8%；B Cohort = 4.5%）。共有12.5%（K Cohort）/ 10.8%（B Cohort）的家庭使用非英语语言，10%（K Cohort）/ 6%（B Cohort）的儿童被诊断为可能有发育障碍（Cooklin等人，2025年）。样本的进一步人口统计特征在研究文档中有详细描述（AIFS，2011年；Cooklin等人，2025年）。

在这项研究中，我们使用了儿童在三个时间点（4岁、6岁和8岁）完成的接受性词汇评估数据，以及学校在四个时间点（8岁、10岁、12岁和14岁）完成的标准化阅读理解评估数据。我们纳入了父母报告的社会经济地位（SEP）和儿童在4岁时完成的认知能力测量作为协变量。该研究获得了新英格兰大学人类研究伦理委员会的伦理批准（#HE22–174）。

2.2. 测量方法
2.2.1. 接受性词汇
接受性词汇在4岁、6岁和8岁时使用改编后的Peabody图片词汇测试-III（PPVT）进行评估。这个版本的PPVT是专门为LSAC设计的，以确保其与澳大利亚的实际情况相关（Rothman，2010年）。改编后的PPVT包含20个项目，因此比原始的PPVT-III更短。为了确保改编后的评估仍然具有测量有效性（Rothman, 2010），人们进行了大量的工作，4岁儿童的PPVT的可靠性为α = 0.76（AIFS, 2022）。在每个数据收集阶段，PPVT都是在家庭访问中进行的。向孩子们展示了一系列单词，以及每个单词对应的四张图片的卡片。孩子们被要求指出与所说单词相关的图片（例如，“给我看包装”）。在这项研究中，我们使用了PPVT的Rasch标准化分数，因为这些分数适合用于建模增长情况，而年龄标准化分数则不适用（Sullivan et al., 2014）。

2.2.2 阅读理解
我们使用了国家评估计划：读写能力和计算能力（NAPLAN）中的阅读理解子测试。NAPLAN测试是标准化的评估工具，旨在评估澳大利亚学龄人口的读写能力和计算能力基本技能的达成情况和增长情况。测试内容与澳大利亚国家课程相一致，学生们在三年级、五年级、七年级和九年级参加这些测试（三年级相当于8岁）。在阅读理解子测试中，学生们会收到一本包含不同类型文本的测试册（例如，信息报告、小说片段、诗歌），并被要求回答一系列选择题和一到两个简短的书面回答问题。问题设计具有不同的难度级别。例如，学生们被要求定位和识别信息、解释和评价文本内容。阅读评估的原始分数通过Rasch项目反应理论方法进行了转换，并映射到一个1-1000分的比率区间标准化分数上。分数经过垂直等值处理，以便可以将一个年级的成绩与其他年级的成绩进行比较，也可以比较不同组别之间的成绩。关于水平和垂直等值过程的更多细节可以在澳大利亚课程、评估和报告局（ACARA, 2017）制作的技术文档中找到。每个年级的可靠性系数在α = 0.88–0.89之间。

2.2.3 社会经济地位（SEP）
两位家长都提供了关于家庭周收入、完成的高中年级、最高学历以及当前或最近职业的信息。这些变量被编码为：较高的收入、学历和职业地位对应于每个变量上的较高排名。随后创建了一个综合标准化分数来表示SEP（平均值M = 0；标准差SD = 1）。关于SEP变量创建的更多信息可以在Baker等人（2017）的研究中找到。虽然家长在研究的多个阶段都提供了SEP信息，但我们使用了与本研究最初使用的PPVT测量同时收集的数据（即K组的第一阶段和B组的第三阶段）。各阶段之间的相关性高于0.90（Baker et al., 2017）。

2.2.4 认知能力 – “我是谁？”
“我是谁？”认知能力评估（WAI；de Lemos & Doig, 1999）由受过培训的研究助手在孩子们4岁时进行。这项评估旨在评估早期读写和计算技能学习背后的认知过程。11个项目评估了孩子们区分和复制形状、书写字母和数字以及书写自己名字的能力（Buckley et al., 2009）。WAI不依赖于孩子的口语能力，因此适用于无论在家里是否说英语的儿童。每个孩子都在家庭访问期间由受过培训的访谈者进行评估，整个评估过程大约需要10分钟完成。每个项目都有一个表示其难度的logit分数。计算了每个孩子的WAI总分。该量表的内部一致性可靠性很高（α = 0.87；Rothman, 2007）。

2.3 分析计划
为了回答研究问题RQ1和RQ2，我们对接受性词汇测量（4至8岁）和阅读理解测量（8至14岁；Bollen & Curran, 2006; Curran et al., 2010）拟合了单变量潜在增长模型。为了回答RQ3，我们使用了一种多变量潜在增长模型的变体，结合了这两个单变量模型，考察了早期接受性词汇的初始水平和增长对后期阅读理解初始状态和增长的影响程度（Curran & Hancock, 2021; McCormick et al., 2024）。最终模型包括了两个协变量：4岁的认知能力和家庭SEP，作为PPVT测量截距项的预测因子。我们报告了包含和排除协变量的结果。由于LSAC中有两个独立的儿童组参与研究，我们使用了K组（N = 4983）来最初测试单变量和多变量模型，并使用B组（N = 4570）作为复制样本。这使我们能够评估模型的稳健性和参数估计的可靠性。分析计划的详细信息可以在补充材料中找到。图3直观地展示了最终模型设计，为了便于解释，省略了协变量。最后，我们进行了一些敏感性分析，这些分析结果也在补充材料中报告。

我们使用了R统计程序（版本4.1.3；R Core Team, 2022）中的tidyverse包（Wickham et al., 2019）和psych包（Revelle, 2022）来进行数据清洗、假设检验、缺失数据分析、描述性统计和数据可视化。对于所有潜在增长模型，我们使用了Mplus（版本8.7，Muthen & Muthen, 2017）和默认的全信息最大似然估计（FIML）方法。FIML估计还考虑了最终模型中任何测量指标的缺失情况。关于缺失数据模式的详细分析可以在补充材料以及表S1和S2中找到。模型拟合情况使用了几个拟合统计量进行评估：首先是卡方统计量（χ2）及其相关的自由度（df），非显著的χ2（df）比率表示模型拟合良好。鉴于样本量较大，χ2很可能显著，因此我们还解释了一些绝对拟合指数，包括近似均方根误差（RMSEA），其中<0.05的值是最优的；标准化均方根残差（SRMR），其中<0.05的值是可以接受的；以及比较拟合指数（CFI）和Tucker-Lewis拟合指数（TFI），其中>0.95的值表示模型-数据拟合良好（West et al., 2012）。对于非嵌套模型比较，我们解释了赤池信息量准则（AIC）的变化，其中较低的值表示更好的拟合。分析没有预先注册，但是用于增长模型的代码和额外的补充材料可以在开放科学框架[仅查看超链接]中找到。数据可以根据要求从澳大利亚数据档案馆（https://ada.edu.au）获取。

3. 结果
K组和B组的词汇和阅读测量结果以及两个协变量的描述性统计信息分别位于表1（顶部面板和底部面板）中。SEP变量的标准化值为平均值0，标准差为1。WAI变量的量表与PPVT类似，K组（M = 64.01）和B组（M = 65.48）的平均值相当。K组中SEP（0.4%）和WAI（1.5%）的缺失率较低，而B组中略有增加（分别为4%和8%）。参与者的流失导致PPVT的缺失率为7-14%，并且在每个后续数据收集阶段都有所增加。NAPLAN阅读测试变量中有18%到40%的数据缺失。缺失数据分析表明，PPVT和阅读数据缺失的儿童报告的SEP较低，认知能力评估得分也较低。因此，这些数据可能是随机缺失的（MAR）。通过在分析中同时包括WAI和SEP变量可以部分解决这个问题（Enders, 2006），我们在最终模型中也这样做了。关于缺失数据模式的进一步分析以及对NAPLAN测试数据高缺失率的解释可以在补充材料和表S1及S2中找到。

表1. K组（顶部面板）和B组（底部面板）的描述性统计信息。
空白单元格 | 数据收集阶段 | 缺失百分比 | 标准差 | 最小值 | 最大值 | 范围
| --- | --- | --- | --- | --- | --- |
| K组 | W1 | 4 | 96 | 50.4 | 0.0 | 1.0 | ?3.7 | 3.0 | 6.7 |
| WAI | W1 | 4 | 88 | 0 | 1.5 | 6.4 | 4.0 | 8.0 | 97 | 67 |
| PPVT - 4岁 | W1 | 4 | 40 | 6 | 12 | 64.0 | 9 | 6.1 | 28 | 85 | 57 |
| PPVT - 6岁 | W1 | 4 | 31 | 7 | 13 | 73.8 | 5.0 | 6 | 46 | 92 | 46 |
| PPVT - 8岁 | W1 | 4 | 27 | 31 | 47 | 8.3 | 14 | 8.3 | 45 | 10 | 66 | 1 |
| 阅读 - 8岁 | W3 | 30 | 13 | 40 | 42 | 6.4 | 50 | 6.4 | 85 | 57 | 68 |
| 阅读 - 10岁 | W3 | 39 | 94 | 20 | 50 | 6.4 | 82 | 28 | 42 | 84 | 2 |
| 阅读 - 12岁 | W5 | 38 | 10 | 24 | 55 | 79 | 87 | 46 | 38 |
| 阅读 - 14岁 | W6 | 34 | 23 | 25 | 97 | 80 | 69 | 91 | 27 | 90 | 87 | 1 |

如上所述，分析中使用了PPVT的Rasch标准化分数，因为可以使用这些分数来建模多个测量指标的进步情况，而年龄标准化或标准化分数则不行（Sullivan et al., 2014）。每个年龄段的PPVT平均分数和范围与人口预期相当（Christensen et al., 2014）。两个组别中所有三个测量指标的平均分数都有所增加，从4岁到6岁的增加幅度（平均Δ约为10分）大于从6岁到8岁的增加幅度（平均Δ约为4.5分）。每个数据收集阶段的PPVT分数分布见补充图S1和S2，显示出每次评估的平均分数和范围的增加。图1还显示了1000名随机抽样个体的个体轨迹，以及K组（顶部面板）和B组（底部面板）的平均分数轨迹。表2显示了K组（顶部对角线）和B组（底部对角线）的所有测量指标之间的相关性，包括两个协变量。两个组别中所有PPVT测量指标之间的相关性都是正向且中等的，范围从r = 0.42到0.53（K组）和r = 0.47到0.54（B组）。

下载：下载高分辨率图像（872KB）
下载：下载全尺寸图像

图1. K组和B组1000名随机抽样参与者的PPVT个体轨迹图
注：顶部面板：K组；底部面板：B组。4岁、6岁和8岁的评估。平均分数轨迹以粗体显示。

表2. K组（底部对角线）和B组（顶部对角线）的词汇和阅读理解测量指标与协变量之间的相关性。
空白单元格
SEP | WAI 4岁 | WAI 6岁 | WAI 8岁 | 阅读 8岁 | 阅读 10岁 | 阅读 12岁 | 阅读 14岁
--- | --- | --- | --- | --- | ---
SEP | 0.22 | 0.29 | 0.27 | 0.27 | 0.29 | 0.36 | 0.37 | 0.39 | 0.39 | 0.39 | 0.39 |
WAI | 0.20 | –0.35 | –0.35 | –0.21 | –0.22 | –0.30 | –0.30 | –0.30 | –0.29 | –0.28 |
PPVT - 4岁 | 0.26 | –0.29 | –0.49 | –0.47 | –0.38 | –0.38 | –0.38 | –0.31 |
PPVT - 6岁 | 0.29 | –0.22 | –0.47 | –0.54 | –0.39 | –0.41 | –0.40 | –0.34 |
PPVT - 8岁 | 0.29 | –0.25 | –0.42 | –0.42 | –0.53 | –0.46 | –0.48 | –0.49 |
阅读 - 8岁 | 0.33 | –0.39 | –0.38 | –0.38 | –0.38 | –0.44 | –0.78 | –0.74 | –0.77 |
阅读 - 10岁 | 0.35 | –0.36 | –0.37 | –0.37 | –0.40 | –0.47 | –0.71 | –0.79 | –0.72 |
阅读 - 12岁 | 0.39 | –0.32 | –0.38 | –0.38 | –0.44 | –0.49 | –0.70 | –0.77 | –0.76 |

注：SEP = 社会经济地位；F = 女性；WAI = “我是谁？”认知能力评估（4岁）；PPVT = 皮博迪图片词汇测试；阅读 = 国家评估计划：读写能力和计算能力（NAPLAN）在三年级、五年级、七年级和九年级的阅读理解评估；y = 年龄（以年为单位）。
p < 0.05 | p < 0.01 | p < 0.001

阅读理解的平均分数比测试时澳大利亚人口的平均分数高出约20个量表分数（相当于每个年级测试0.25到0.30个标准差）。尽管如此，两个组别在每次评估中的平均分数都按照与人口预期相似的幅度增加，每个年级的分数范围也反映了人口群体的情况（Larsen & Little, 2023）。NAPLAN阅读分数在每个数据收集阶段的分布见补充图S3和S4。K组和B组在前两次评估（8岁和10岁）之间的平均分数增加最大（分别为Δ约为80分和82分），而从10岁到12岁（分别为Δ约为51分和40分），以及从12岁到14岁（分别为Δ约为39分和43分）的增加幅度较小。在使用NAPLAN阅读理解分数的纵向研究中，之前已经观察到四个测量指标的增长幅度逐渐减小（Larsen et al., 2022; Larsen & Little, 2023）。图2绘制了从K组队列（顶部面板）和B组队列中随机抽取的1000名参与者的个体轨迹，并叠加了平均分数轨迹。阅读分数之间的相关性（表2）均为正向且较强，范围在r = 0.68至0.81（K组队列）和r = 0.67至0.79（B组队列）之间。下载：下载高分辨率图像（388KB）下载：下载全尺寸图像

图2. K组队列和B组队列中随机抽取的1000名参与者的NAPLAN阅读理解测试个体轨迹图

注意：顶部面板：K组队列；底部面板：B组队列。评估年龄为8岁、10岁、12岁和14岁。平均分数轨迹以粗体显示。

下载：下载高分辨率图像（126KB）下载：下载全尺寸图像

图3. 4岁至8岁的词汇量（PPVT）和8岁至14岁的阅读理解（NAPLAN）的顺序多元增长模型

注意：下标：V = 词汇量；R = 阅读理解；y = 年龄；ε = 观测变量的残差。为清晰起见，省略了协变量。

两个组队列中词汇量和阅读测量之间的相关性也为正向且中等，范围在r = 0.33至0.49（K组队列）和r = 0.31至0.49（B组队列）之间。同样，SEP和认知能力（WAI）测量值与两个样本中的所有PPVT和阅读测量值均呈正向且中等程度的相关性。

3.1 单变量增长模型

RQ 1 接受性词汇量的增长模式是什么？

3.1.1 K组队列

K组队列的PPVT和NAPLAN阅读理解评估数据的单变量潜在增长模型的拟合统计信息见表3（顶部面板）。为了完整性，我们首先估计了一个具有线性增长函数的模型（即每次评估之间的增长增量相同）。正如预期的那样，鉴于平均分数的增长模式（见表1），线性模型对数据的拟合效果较差（χ2(df) = 1377.99 (1)，RMSEA = 0.531，90% CI [0.508, 0.555]），并且斜率因子上出现了负方差（即Heywood情况），这表明线性增长模型设定不当（Preacher, 2018）。因此，我们根据K组队列中三次测量之间的平均分数变化比例估计了斜率载荷：波次1和波次3之间的增长有69%是由波次2贡献的，因此我们将第二次测量的斜率载荷设置为0.69。该模型对数据的拟合效果非常好（表3），根据AIC（ΔAIC = 1377），其拟合效果优于模型1。

表3. 词汇量和阅读理解的单变量模型以及多元顺序增长模型的拟合统计信息

组别模型 Chi-Sq (df) RMSEA [90% CI] CFI LIS RMRAI
K组队列单变量增长模型 PPVT – 线性 1377.99 (1) 0.531 [0.508, 0.555] 0.46 0.00 0.388 9.181
估计斜率 0.17 (1) 0.000 [0.000, 0.028] 1.00 0.00 0.277 8.04
隐性基础 37.48 (3) 0.052 [0.038, 0.068] 0.99 0.99 0.064

N组队列多变量顺序模型词汇量 → 阅读 76.80 (12) 0.033 [0.026, 0.041] 0.99 0.99 0.066 23.0,227
包括协变量 423.68 (24) 0.059 [0.054, 0.064] 0.97 0.96 0.069 22.5,554

3.2 单变量增长模型

RQ 2 阅读理解的增长模式是什么？

3.1.3 K组队列

由于先前的研究一致表明NAPLAN阅读理解测量值的增长模式呈减速趋势（例如，Larsen等人，2022；Larsen & Little，2023），我们仅对阅读数据拟合了一个潜在基础模型。正如预期的那样，该模型获得了可接受的拟合统计结果（表3）。K组队列的阅读模型的非标准化参数见表4（左侧面板，第二列）。所有参数均显著不为零（p < 0.001），并且单变量模型解释了四个阅读测量值中72–83%的方差。截距均值（63.97）和斜率均值（14.22）分别表示样本在三次测量中的平均起点和平均词汇量增长。截距（σ0 = 19.80）和斜率（σ1 = 6.75，p = 0.001）参数存在显著方差，表明儿童在初始分数和分数随时间的变化方式上存在差异。这些项之间的相关性为负且中等强度（r = ?0.58）。这种负相关性表明，平均而言，4岁时词汇量最差的儿童在8岁时的进步速度比那些初始分数较高的同龄人快。这一发现表明K组队列中存在接受性词汇量的补偿性增长模式。

表4. K组队列和B组队列的词汇量和阅读理解的无条件单变量模型的参数

注意：i. 两个样本中的PPVT线性模型的斜率因子均出现了负方差（Heywood情况），因此无法解释。PPVT = Peabody图片词汇测试；Reading = 国家评估计划：读写和计算能力（NAPLAN）阅读理解评估。

表4显示了K组队列中单变量词汇量模型的非标准化参数估计值（左侧面板，第一列）。所有参数均显著不为零，该模型解释了观察到的PPVT变量中超过50%的方差（R2 = 0.52–0.56）。截距均值（63.97）和斜率均值（14.22）分别表示样本在三次测量中的平均起点和平均词汇量增长。截距（σ0 = 19.80）和斜率（σ1 = 6.75，p = 0.001）参数存在显著方差，表明儿童在初始分数和分数随时间的变化方式上存在差异。这些项之间的相关性为负且中等强度（r = ?0.58）。这种负相关性表明，平均而言，4岁时词汇量最差的儿童在8岁时的进步速度比那些初始分数较高的同龄人快。

3.1.2 B组队列

B组队列的单变量词汇量模型的拟合统计信息见表3（底部面板）。我们将第二次测量的斜率载荷固定为0.69，以反映K组队列中使用的载荷。该模型获得了可接受的拟合统计结果（表3）。接受性词汇量的补偿性增长模式这一总体发现也在B组队列中得到了复制。

RQ 3 阅读理解的增长模式是什么？

3.1.3 K组队列

由于先前的研究一致表明NAPLAN阅读理解测量值的增长模式呈减速趋势（例如，Larsen等人，2022；Larsen & Little，2023），我们仅对阅读数据拟合了一个潜在基础模型。正如预期的那样，该模型获得了可接受的拟合统计结果（表3）。K组队列的阅读模型的非标准化参数见表4（左侧面板，第二列）。所有参数均显著不为零（p < 0.001），并且单变量模型解释了四个阅读测量值中72–83%的方差。截距均值（423.05）和斜率均值（170.41）可以理解为初次评估时的平均分数和8岁至14岁期间的平均增长。截距（σ0 = 5593.88）和斜率因子（σ1 = 1166.97）存在显著方差，再次表明儿童在初次评估时的分数和三年级到九年级的阅读发展方式上存在差异。正如预期的那样，截距和斜率之间的相关性为负且中等强度（r = ?0.50）。从概念上讲，这意味着阅读起点较高的儿童倾向于增长较慢，而起点较低的儿童则表现出更快的阅读理解增长。与接受性词汇量的模式类似，数据指向阅读理解的补偿性增长模式（例如，Lepp?nen等人，2004），而不是Matthew效应。在我们的研究中，初次评估时处于分布底部的学生在最终评估时取得了最大的进步。

3.1.4 B组队列

对于B组队列的阅读模型，我们再次拟合了一个潜在基础模型，并允许从数据中估计第二次和第三次测量的斜率载荷。该模型获得了足够的拟合统计结果，因此被保留（表3）。B组队列的单变量阅读模型的参数估计值见表4（右侧列）。阅读理解的补偿性增长模式这一总体发现也在B组队列中得到了复制。

3.1.5 RQ 1和RQ 2组队列结果比较

组队列结果比较可以在补充材料中找到。简而言之，B组队列充分复制了K组队列的单变量模型；因此，我们继续在两个样本中拟合多元模型。

3.2 顺序增长模型

RQ 3 接受性词汇量的增长模式在多大程度上预测了后期阅读理解的增长模式？

在多元模型中，我们保留了每个领域最适合的单变量模型，然后拟合了一个模型，其中词汇量模型的截距和斜率因子预测了阅读模型的截距和斜率。我们称此为顺序增长模型，因为词汇量测量在时间上先于阅读理解测量：即一个序列（词汇量）先于另一个序列（阅读）。我们首先在K组队列中测试了这个顺序模型，然后在B组队列中复制了相同的模型。K组队列的模型拟合统计信息见表3（顶部面板）。K组队列的模型很好地拟合了数据；因此，我们没有测试任何替代或嵌套模型。复制样本（B组队列）的顺序模型拟合统计信息见表3（底部面板）。该模型也获得了可接受的拟合结果。接下来，我们在多元模型中包含了两个协变量SEP和认知能力。同样，K组队列和B组队列的模型拟合都是可接受的（表3），表明这些参数可以解释。

表5和表6报告了K组队列和B组队列的顺序模型的标准化回归系数。这里分别展示了不包括（表5）和包括（表6）协变量的结果。对于K组队列不包括协变量的情况，词汇量截距因子显著预测了阅读的截距（r = 0.89）和斜率（r = ?0.34），尽管方向不同。同样，对于B组队列不包括协变量的情况，词汇量截距显著预测了阅读的截距（r = 0.82）和斜率（r = ?0.50）。从概念上讲，这些参数表明，4岁时词汇量较强的儿童在8岁时的阅读理解分数较高，这证实了我们RQ3假设的第一部分。然而，PPVT的较高分数预测了从8岁到14岁期间阅读增长较慢，因此否定了我们RQ3假设的第二部分。后一个发现与每个领域内的负截距-斜率相关性相符，这些相关性的强度在K组队列和B组队列的模型中是相似的：词汇量（r = ?0.61 / -0.58）和阅读（r = ?0.45 / -0.70）。这些负相关关系表明，初始起点较高的儿童在4岁到14岁期间的词汇量和阅读增长较少。相反，这些参数表明，初始成绩较差的儿童在随时间内的领域内进步最大：首先是词汇量，然后是阅读。包括SEP和认知能力协变量后，这些系数的值略有变化，但解释没有不同。

表5. 不包括协变量的K组队列和B组队列的保留多元模型的标准化参数

表6. 包括协变量的K组队列和B组队列的保留多元模型的标准化参数

注意：所有参数在p < .001时均显著，除了**??? p = .001，?? p = .002**。ap = .052。括号内为标准化估计值（如适用）。

i. 每个领域中的重复测量分别用1、2、3表示第一次、第二次、第三次测量，4表示仅阅读。PPVT = Peabody图片词汇测试；Reading = 国家评估计划：读写和计算能力（NAPLAN）阅读理解评估。

3.1.4 B组队列

B组队列的单变量词汇量模型的拟合统计信息见表3（底部面板）。我们将第二次测量的斜率载荷固定为0.69，以反映K组队列中使用的载荷。该模型获得了可接受的拟合统计结果（表3）。接受性词汇量的补偿性增长模式这一总体发现也在B组队列中得到了复制。

RQ 3 接受性词汇量的增长模式在多大程度上预测了后期阅读理解的增长模式？

3.1.4 K组队列

由于先前的研究一致表明NAPLAN阅读理解测量值的增长模式呈减速趋势（例如，Larsen等人，2022；Larsen & Little，2023），我们仅对阅读数据拟合了一个潜在基础模型。正如预期的那样，该模型获得了可接受的拟合统计结果（表3）。K组队列的阅读模型的非标准化参数见表4（左侧面板，第二列）。所有参数均显著不为零（p < .001），并且单变量模型解释了四个阅读测量值中72–83%的方差。截距均值和斜率均值可以理解为初次评估时的平均分数（423.05分）和8岁到14岁期间的平均增长（170.41分）。截距（σ0 = 5593.88）和斜率因子（σ1 = 1166.97）存在显著方差，再次表明儿童在初次评估时的分数和三年级到九年级的阅读发展方式上存在差异。正如预期的那样，截距和斜率之间的相关性为负且中等强度（r = ?0.50）。从概念上讲，这意味着阅读起点较高的儿童倾向于增长较慢，而起点较低的儿童则表现出更快的阅读理解增长。与接受性词汇量的模式类似，数据指向阅读理解的补偿性增长模式（例如，Lepp?nen等人，2004），而不是Matthew效应。在我们的研究中，初次评估时处于分布底部的学生在最终评估时取得了最大的进步。

3.1.5 B组队列

对于B组队列的阅读模型，我们再次拟合了一个潜在基础模型，并允许从数据中估计第二次和第三次测量的斜率载荷。该模型获得了足够的拟合统计结果，因此被保留（表3）。B组队列的单变量阅读模型的参数估计值见表4（右侧列）。阅读理解的补偿性增长模式这一总体发现也在B组队列中得到了复制。

3.1.5 RQ 1和RQ 2组队列结果比较

组队列结果比较可以在补充材料中找到。简而言之，B组队列充分复制了K组队列的单变量模型；因此，我们继续在两个样本中拟合多元模型。

3.2 顺序增长模型

RQ 3 接受性词汇量的增长模式在多大程度上预测了后期阅读理解的增长模式？

在多元模型中，我们保留了每个领域最适合的单变量模型，然后拟合了一个模型，其中词汇量模型的截距和斜率因子预测了阅读模型的截距和斜率。我们称此为顺序增长模型，因为词汇量测量在时间上先于阅读理解测量：即一个序列（词汇量）先于另一个序列（阅读）。我们首先在K组队列中测试了这个顺序模型，然后在B组队列中复制了相同的模型。K组队列的模型拟合统计信息见表3（顶部面板）。K组队列的模型很好地拟合了数据；因此，我们没有测试任何替代或嵌套模型。复制样本（B组队列）的顺序模型拟合统计信息见表3（底部面板）。该模型也获得了可接受的拟合结果。接下来，我们在多元模型中包含了两个协变量SEP和认知能力。同样，K组队列和B组队列的模型拟合都是可接受的（表3），表明这些参数可以解释。

表5和表6报告了K组队列和B组队列的顺序模型的标准化回归系数。这里分别展示了不包括（表5）和包括（表6）协变量的结果。每个组的结果非常相似。对于不包括协变量的K组队列，词汇量截距因子显著预测了阅读的截距（r = 0.89）和斜率（r = ?0.34），尽管方向不同。同样，对于不包括协变量的B组队列，词汇量截距显著预测了阅读的截距（r = 0.82）和斜率（r = ?0.50）。从概念上讲，这些参数表明，4岁时词汇量较强的儿童在8岁时的阅读理解分数较高，这证实了我们RQ3假设的第一部分。然而，PPVT的较高分数预测了从8岁到14岁期间阅读增长较慢，因此否定了我们RQ3假设的第二部分。这一后一个发现与每个领域内的负截距-斜率相关性相符，这些相关性的强度在K组队列和B组队列的模型中是相似的：基弗（Kieffer），2011年提供了一个类似的例子，该例子仅使用SES来调整阅读增长的模型。最终，解释的方差在初始样本和复制样本之间是相似的：在阅读斜率中解释了17%到22%的方差，在PPVT截距中解释了35%到33%的方差，而在阅读截距中，模型解释了最大的方差，分别为77%和59%（K组与B组）。4. 讨论本研究的目的是探讨幼儿期接受性词汇的发展与从中童年到青春期的阅读理解发展之间的关联程度。我们使用了来自澳大利亚儿童纵向研究（Longitudinal Study of Australian Children）的两个代表性样本（样本量分别为4983人和4570人）。为了回答研究问题1（RQ1）和问题2（RQ2），我们分别测试并复制了接受性词汇和阅读理解的潜在增长模型。为了回答问题3（RQ3），我们使用了一个序贯增长模型来捕捉十年间早期接受性词汇与后期阅读理解之间的关系。

RQ1：接受性词汇的增长模式是什么？与之前的研究以及我们对RQ1的假设（Christensen等人，2017年；Logan等人，2023年；Quinn等人，2015年；Westrupp等人，2020年）一致，结果表明，儿童的接受性词汇在四年期间有所提高，其中大约70%的增长发生在4岁到6岁之间。词汇模型中的截距项和斜率项的变异性表明，在Pre-K阶段的初始评估以及到大约8岁时的进步速度上存在显著的个体差异。尽管在早期学术技能发展的研究中并不总是观察到这种个体差异（例如，Killingly, Graham等人，2025年；Little等人，2021年），但这种差异并非意料之外。截距项和斜率项之间的负协方差也表明，那些在Pre-K阶段PPVT得分低于平均水平的儿童在这三次测量中取得了最大的进步，他们在某种程度上赶上了那些初始接受性词汇知识高于平均水平的同龄人。这种效应可能表明，虽然有些学生可能需要更长的时间来学习更多的词汇，但他们具备这种能力的可能性并不受限制（参见Paris, 2005年）。接受性词汇的增长模式与马太效应（Matthew effect，Stanovich, 1986年）相反，反而表明某些学生的接受性词汇出现了补偿性增长（Francis等人，1996年）。至少有三种可能的解释：首先，一旦澳大利亚的K年级开始强制性的正规学校教育，孩子们就能获得更统一的教学质量。在澳大利亚的背景下，开始正规学校教育似乎支持了儿童的接受性词汇发展，特别是那些在Pre-K阶段接受性词汇方面处于劣势的儿童。早期儿童教育的形式和Pre-K年级的教学课程比幼儿园更加多样化。此外，在收集这些数据时，超过82%的儿童接受了正规的早期儿童教育，但参加教育的小时数、入学年龄以及中心类型（例如，长时间日托或社区型幼儿园）在全国范围内差异很大（Baxter & Hand, 2013年）。因此，那些在入学前很少接触正规词汇学习的儿童可能在课堂教育中取得良好进步，从而在某种程度上缩小了Pre-K阶段存在的成绩差距。其次，当澳大利亚的儿童开始接受正规学校教育时，他们越来越多地接触到结构化的口语语言环境。日常活动，如共同阅读书籍、明确的词汇教学、结构化的读写模块以及对基础技能的定期监测，似乎促进了那些之前词汇接触有限的儿童的接受性词汇增长。实际上，我们的研究结果表明，儿童的社会经济背景在词汇增长模式中起到了一定作用。这表明，在入学后，学校中每天接触丰富的语言环境至少在某种程度上减少了家庭输入对接受性词汇增长的相对影响。第三，同伴效应也可能起到作用，支持接受性词汇的发展。澳大利亚的早期课堂通过合作活动和伙伴工作创造了同伴学习的机会。接受性词汇较强的儿童可能通过这些互动无意中帮助了他们的同伴提高接受性词汇水平，从而缩小了早期的差距。确定接受性词汇增长的预测因素，而不仅仅是特定时间点的成绩，是进一步理解这一基本读写领域纵向模式的下一步研究方向。

RQ2：阅读理解的增长模式是什么？阅读理解的结果也证实了我们的假设，即我们在NAPLAN数据中观察到了增长速度的放缓。这些结果与之前的阅读理解增长建模研究一致（例如，Catts等人，2008年；Francis等人，1996年；Johnson等人，2025年；Grimm & Widaman，2010年；Larsen & Little，2023年；Ricketts等人，2020年；Skopek & Passaretta，2021年），并表明，尽管学生的成绩从初始评估（8岁）到最终评估（14岁）有所提高，但大部分进步发生在8岁到10岁之间（澳大利亚学校系统的3年级到5年级）。阅读模型还显示了截距项和斜率项之间的负相关，这再次反映了使用NAPLAN阅读理解作为测量工具的先前研究（Larsen & Little，2023年）。这一结果表明了一种补偿性增长模式，与马太效应相反。也就是说，3年级时阅读成绩低于平均水平的学生成长到9年级时的进步比那些初始成绩高于平均水平的同龄人更大（Lepp?nen等人，2004年）。这种模式在阅读理解的纵向研究中并不罕见——实际上，在一项包括78项分析的元分析中，Pfost等人（2014年）发现42%的结果显示出补偿性增长模式，23%显示出马太效应，剩余的26%显示出随时间变化的个体差异。特别是针对年龄较大的儿童（即从中童年到青春期）的研究更常显示出补偿性增长模式，这与当前研究的结果一致（Larsen等人，2022年；Ricketts等人，2020年；Shin等人，2013年；Wang等人，2017年）。

RQ3：接受性词汇的增长模式在多大程度上预测了后期阅读理解的增长模式？本文感兴趣的关键结果是来自序贯增长模型的结果。这些分析通过考察早期接受性词汇的增长速度是否能够预测初始成绩和后期阅读理解的增长来回答RQ3。虽然有一些研究考察了词汇不同方面的增长或阅读及其预测因素（例如，Johnson等人，2025年；Logan等人，2023年；Ricketts等人，2020年；Song等人，2015年），但较少有研究试图考察这两个领域在研究时间跨度（即从Pre-K到早期青春期）内的相关性。初始样本（K组）和复制样本（B组）的结果非常相似，因此我们的讨论可以推广到这两个样本的发现。4岁时测量的接受性词汇强烈预测了8岁时的初始阅读理解测试成绩，证实了我们的假设RQ3，并反映了大量现有研究的发现。例如，Hjetland等人（2020年）的元分析包括了45项研究，这些研究考察了早期词汇与后期阅读理解之间的联系，报告的元分析相关性为0.42。我们研究中报告的接受性词汇与阅读之间的关系（K组和B组分别为r = 0.86 / 0.76）高于这一估计值。然而，我们注意到，本研究中使用的结构方程模型分离了观测变量中的测量误差——这也是Hjetland等人（2020年）在其综述中提出的问题。众所周知，观测变量误差会减弱协方差（Padilla & Veprinsky，2012年），因此之前的词汇与后期阅读关系的分析可能被系统性地低估了。这种实证模式指向了强调词汇知识在阅读发展中作用的阅读理论。当前研究中观察到的Pre-K阶段接受性词汇与3年级阅读理解之间的稳健关系与语言效率理论（Perfetti，2007年）和词汇质量假说（Perfetti & Stafura，2014年）一致。具有更大接受性词汇的儿童可能带着更丰富的语义表征进入学校，这可能有助于他们在学习阅读时发展出更高质量的词汇表征，从而促进更有效的阅读理解技能。尽管有些反直觉，但词汇的截距项对阅读斜率有负面影响，表明那些在幼儿园阶段接受性词汇高于平均水平的儿童在3年级到9年级之间的阅读理解进步较小。这一结果，加上阅读模型中截距项和斜率之间的负相关，表明词汇截距与阅读斜率之间存在间接关系。最后，与我们的初始预测相反，词汇的斜率并没有预测阅读的截距或斜率。看来，仅靠强大的中童年接受性词汇知识本身并不足以导致多年后的阅读增长。我们的结果补充了Logan等人（2023年）的发现，他们没有发现早期儿童的语言收益与3年级的阅读成绩之间存在关联（尽管他们的工作测量的是表达性词汇）。总的来说，这些结果表明，中童年的阅读理解发展比简单的从接受性词汇到阅读理解的路径要复杂得多。最近的理论工作（例如，阅读的主动视角；Duke & Cartwright，2021年）可能有助于解释这一点。阅读的主动视角强调阅读理解是许多系统协调活动的结果：词汇识别、语言理解（例如，接受性词汇）、桥梁过程（例如，形态学、图音素-语义灵活性）和主动自我调节（例如，执行功能）。接受性词汇的增长仅涉及这一模型的一部分，如果没有所有组分的同步发展，可能不会直接转化为加速的阅读增长。事实上，最近关于阅读的元分析工作表明，一些桥梁过程在阅读理解方面的改进通常大于仅接受性词汇（Burns等人，2023年）。因此，我们的意外发现与一种理论观点一致，即阅读理解依赖于多种成分和技能的结合。因此，课堂教学应该考虑到这种复杂性，并认识到多种可塑的先决技能共同作用才能产生成功的阅读（Castles等人，2018年）。

4.1. 实际意义虽然这些结果并不直接支持这样的建议，即在幼儿期单独尝试提高学生的接受性词汇习得会促进学校后期更强的阅读进步（Beck & McKeown，2007年；Castles等人，2018年；Elleman等人，2009年；Killingly, Graham等人，2025年；Marulis & Neuman，2013年；McKeown等人，1983年），但它们确实提供了一些在设计课堂课程和教学时可以考虑的见解。首先，4岁时儿童的接受性词汇与8岁时阅读理解之间的正相关表明，儿童在早期建立坚实的通用词汇基础非常重要。早期儿童教师可以通过经常与学生交谈、让他们接触丰富的口语语言以及与他们一起阅读各种文本来支持这一目标。众所周知，即使在非常年幼的儿童中，口语互动中遇到的词汇类型也比书面文本中遇到的词汇类型简单（Verhoeven & Perfetti，2011年）；因此，持续接触逐渐复杂的文本非常重要。其次，在早期接受性词汇和后期阅读理解中观察到的补偿性增长模式表明，澳大利亚的早期小学课堂可能已经结构化，以有效支持那些词汇技能较弱的年幼学生。这一发现表明，对于那些尽管最初表现出较强技能但在数据中显示增长较慢的高成就学生，也需要提供更具挑战性的教学。因此，澳大利亚学校面临的挑战是设计能够促进低成就学生持续进步的同时，也能支持高成就学生发展的课程和教学方法。尽管我们在这项研究中无法探讨词汇量和阅读能力之间的相互影响，但有充分证据表明，随着儿童的成长，词汇量和阅读理解能力是相互影响的（Cain & Oakhill, 2011; Florit et al., 2014; Georgiou et al., 2023; Jago et al., 2025）。理解能力较强的儿童倾向于阅读更多，这使他们接触到更复杂的书面词汇（Share, 1995），并通过反复接触和自学掌握新词汇。Cain和Oakhill的研究表明，即使考虑到一般能力和早期的词汇分数，早期理解能力较强且阅读经验较多的儿童会更快地积累词汇量。另一方面，尽管解码能力相似，但理解能力较弱的儿童词汇量的增长速度较慢。同样，反向过程也同样重要：词汇量较大的儿童更能有效地理解文本并构建意义，因为词汇知识有助于在段落和篇章层面进行推理和连贯性构建。儿童词汇库中高质量的词汇表征可以减少处理负担，使他们能够专注于整合各种信息（Perfetti, 2007; Perfetti & Stafura, 2014）。综合来看，先前的研究表明词汇量和理解能力之间存在双向影响，尽管我们在此研究中无法验证这一模式。未来的研究应该探讨这些相互关系，因为这将有助于阐明一个领域的成长如何促进另一个领域的长期发展。

4.2. 强点和局限性
本研究有几个显著的优点。首先，使用大规模的、具有全国代表性的澳大利亚样本，为澳大利亚学龄儿童提供了可靠且具有普遍性的研究结果。这些样本在地区分布、背景多样性和多语言家庭方面都具有代表性。其次，从学前到青春期早期（4至14岁）的十年纵向设计非常罕见且有力，使我们能够捕捉到儿童早期和中期发展中的关键转变。这一较长的时间跨度使我们能够观察接受性词汇量和阅读理解能力在快速发展的时期的变化模式。第三，使用标准化且心理测量学上可靠的测量工具——改编后的PPVT（用于接受性词汇量）和NAPLAN（用于阅读理解）——确保了不同时间点的测量一致性和可靠性。这两种工具特别适合用于建模成长过程。第四，使用复制样本（B组）来验证最初在K组中开发的模型，增强了我们对研究结果可靠性和可重复性的信心，减少了结果受到样本特定性或数据驱动的可能性。最后，应用复杂的潜在增长建模技术，包括顺序多变量增长模型设计，使我们能够研究早期接受性词汇量与后期阅读理解能力之间的复杂发展关系。

然而，也存在一些局限性。其中一个局限性是仅使用了接受性词汇量这一测量指标。虽然PPVT在词汇研究中非常常见（Hjetland et al., 2020），但它无法捕捉词汇知识的多种形式（例如词汇知识的深度；Ouellette, 2006）。为了更好地理解阅读理解能力的后期发展，可以采用更细致的词汇测量方法，包括表达性词汇量的测量以及词汇之间的关联（即词汇的连贯性；McCarthy & McNamara, 2021）。因此，我们的结果仅限于接受性词汇量，并应在接受性词汇量及其与阅读理解关系的狭义背景下进行解读。同样，NAPLAN阅读理解评估是一种标准化测试，可能无法反映学校课堂上实际教授的内容，尤其是对于中学生而言（Larsen, 2025）。事实上，在Elleman等人（2009）对词汇干预对后期阅读理解影响的元分析中，他们发现词汇干预并未提高学生在标准化阅读测试中的成绩，但在自设测试中的阅读能力有所提高。此外，标准化的接受性词汇量测量方法在捕捉学生随着学校学习逐渐积累的学科特定词汇方面存在局限性。虽然使用标准化测量方法有其优势，例如它们可以在横向和纵向上进行比较，并能捕捉成长过程（Briggs & Weeks, 2009），但与课堂教学内容更紧密相关的测量方法可能更有助于提供关于应教授什么内容及何时教授的建议。

此外，某些测量指标存在大量缺失数据的问题也是一个局限性。在本研究中，阅读测量指标的缺失率很高（高达40%）。这部分是因为一些儿童错过了NAPLAN测试的开始时间（即他们在2007年处于三年级），另一部分是因为将调查数据与州级成绩记录匹配的难度较大。在这些情况下，数据的缺失不应影响测试结果。此外，预测变量的缺失率较低（0.4–8%），并且分析中使用的FIML估计器对结果变量中大量缺失数据具有很强的鲁棒性（Enders, 2013）。尽管如此，我们仍需承认，如果数据不是随机缺失（NMAR）而是非随机缺失（MAR；Enders, 2013），参数仍可能存在未知程度的偏差。

另一个需要考虑的问题是这些结果在澳大利亚之外的普遍性。其他国家的教育体系、课程和教学方法可能对接受性词汇量和阅读理解能力的发展有不同的影响。我们的结果非常适用于澳大利亚的情况，未来的研究可以探讨其他国家及教育体系中这两个领域的发展模式，或者尝试复制这些发现。鉴于整个队列和排除语言发育障碍儿童的队列的结果具有可比性，我们可以推测这些结果主要适用于正常发展的儿童，而不是那些被诊断出语言发育障碍或特定学习障碍（如阅读障碍）的儿童。

另一个局限性是本研究考察的预测变量范围有限。虽然包括了4岁时的社会经济地位和认知能力作为控制变量，但未考虑其他潜在的重要因素，如家庭识字环境、多语言能力和教学实践的差异。由于本研究依赖于LSAC的二手数据，我们受到现有数据集的限制。未来的研究可以通过纳入更多预测变量来更好地理解影响词汇量增长和阅读理解能力发展的复杂因素。

最后，本研究中测量指标的间隔为两年（接受性词汇量：4岁、6岁和8岁；阅读理解：8岁、10岁、12岁和14岁）。数据集的性质使得我们无法就评估间隔做出实证或理论上的决定。此外，由于接受性词汇量的测量是在比阅读理解更早的发展阶段进行的，我们无法在本研究中评估接受性词汇量和阅读理解能力之间是否存在相互影响。鉴于这些局限性，未来的纵向研究可以利用现有结果来指导评估的时间和方式，以便更全面地理解词汇量（包括接受性和表达性）增长与阅读理解能力达成和进步之间的相互关系。

5. 结论
本文采用了一种新颖的纵向统计方法，研究了早期学校阶段接受性词汇量的增长对儿童后期和青少年时期阅读理解能力提升的影响程度。虽然此类观察性研究无法提供关于学校初期特定干预措施成功与否的信息，但它可以提供有关发展模式的有用信息，并为未来研究的设计提供参考。特别是，使用具有代表性的样本数据可以为更广泛的澳大利亚学龄儿童群体提供更具普遍性的信息。了解澳大利亚学生接受性词汇量和阅读理解能力的发展对于评估未来干预措施的设计至关重要，这些措施将有助于提高学生在关键学术领域——阅读方面的成绩和进步。

致谢
作者贡献声明：
Sally A. Larsen：撰写——审阅与编辑、撰写——初稿、可视化、验证、监督、软件使用、资源管理、项目管理、方法论、研究设计、资金申请、数据分析、数据整理、概念化。
Florina Erbeli：撰写——审阅与编辑、撰写——初稿、验证、概念化。

伦理问题
本研究已获得新英格兰大学人类研究伦理委员会的批准（批准编号#HE22–174）。

资金支持
本研究部分得到了新英格兰大学早期职业研究者的资助。本文所表达的观点仅代表作者本人，并未经过资助机构的审核或批准。

代码和补充材料
代码及补充材料可在Open Science Framework上获取：https://osf.io/qnt3u/files/osfstorage

注：
K组：N = 4983；女性 = 50%；
B组：N = 4570；女性 = 49%；
SEP = 社会经济地位；
WAI = “我是谁？”认知能力评估；
PPVT = 皮博迪图片词汇测试；
Reading = 国家读写与计算能力评估（NAPLAN）阅读理解评估；
y = 年龄（以岁为单位）。

热点排行