基于蒙特卡罗模拟的等级反应模型样本量需求研究：为心理测量学设计提供实证依据

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《PLOS One》：A Monte Carlo simulation study of sample size requirements for the Graded Response Model

【字体：大中小】 时间：2026年04月23日 来源：PLOS One 2.6

编辑推荐：

　　当前等级反应模型(Graded Response Model, GRM)在心理学量表开发和验证中的应用日益广泛，但关于样本量、项目数(J)和反应类别数(K)如何影响参数估计准确性的实证研究尚不充分。为此，本研究通过一项大规模蒙特卡罗模拟，系统考察了这三个设计条件对潜在特质参数(θ)和项目区分度参数(a)估计精度的影响。结果发现，增加项目数(J)可有效提升θ的估计准确性，而a的估计精度则更依赖于样本量(n)的增加；增加反应类别数(K)的收益有限。这为针对不同测量目标（个人特质评估vs.项目参数校准）灵活制定样本量指南提供了重要的实证依据，对心理与健康评估领域具有直接的实践指导意义。

在心理学、教育学和健康评估等领域，量表是衡量个体潜在特质（如焦虑程度、幸福感、能力水平）的核心工具。这些量表通常包含一系列条目，每个条目提供多个有序的选项供被试者选择，例如从“非常不同意”到“非常同意”的5点或7点李克特量表。为了从这些有序的应答数据中精准地“解码”出个体的潜在特质水平，并同时评估每个条目的测量属性（如区分度），心理学家们广泛采用了项目反应理论(Item Response Theory, IRT)框架下的等级反应模型(Graded Response Model, GRM)。GRM能够将个体的潜在特质(θ)和条目的参数（区分度a、难度b）放在同一尺度上进行估计，实现了“量尺”的客观化和可比性，这对于编制简版量表、跨文化适应量表等应用至关重要。

然而，一个长久以来困扰研究者和实践者的问题是：运用GRM进行分析时，究竟需要多大的样本量？目前，像COSMIN（基于共识的健康测量工具选择标准）这样的权威指南建议样本量至少为1000，但这些建议多基于专家共识，缺乏扎实的实证证据支撑。更重要的是，量表的设计本身包含多个可变的维度：除了样本量(n)，还有量表中的条目数量(J)，以及每个条目提供的反应选项数量(K)。理论上，更多的条目能提供更丰富的整体测验信息，更多的反应选项能提升单个条目的信息量。那么，在有限的资源和时间下，研究者应如何权衡这三者，以实现对潜在特质(θ)或条目参数(a)最精准的估计？现有的研究大多只固定考察其中一两个因素，缺乏对n、J、K三者如何联合影响GRM参数估计精度的系统性探索。为了填补这一空白，为心理测量学的实践提供更精细、更基于实证的设计指南，本研究团队展开了一项大规模的蒙特卡罗模拟研究。

本研究旨在阐明样本量(n)、条目数(J)和反应类别数(K)这三个设计条件如何影响GRM框架下潜在特质(θ)和项目区分度参数(a)的估计精度。为此，研究人员设计并执行了一项全面的蒙特卡罗模拟。

本研究主要运用了以下几项关键技术方法：1. 蒙特卡罗模拟：作为研究的核心方法，通过计算机程序在控制条件下大量生成和抽样数据，以模拟不同测量设计情境。2. 等级反应模型(GRM)的数据生成与参数估计：使用R语言中的mirt软件包，依据预设的参数分布（潜在特质θ服从标准正态分布，区分度参数a服从0.5到2.0的均匀分布，类别阈值参数b服从均值为0、方差为1的正态分布）生成大规模总体数据集，并从中随机抽取不同大小的样本。3. 期望最大化(Expectation-Maximization, EM)算法：用于对抽取的样本数据拟合单维GRM，并估计项目参数和潜在特质。其中，潜在特质采用期望后验估计法进行估计。4. 多维度评估指标：采用均方根误差(Root Mean Square Error, RMSE)和经过有限总体校正的RMSE来量化估计误差的大小；同时，创新性地引入皮尔逊相关系数，来评估估计值与真实值在顺序上的一致性，为估计精度提供了更直观的解读视角。

研究结果

项目区分度参数a的估计精度

•
样本量与条目数的影响：研究结果显示，区分度参数a的RMSE随着样本量(n)和条目数(J)的增加而显著降低。直观地展示了RMSE随样本量增加而持续下降的趋势。例如，在J=10, K=5的条件下，平均RMSE从n=500时的约0.243下降到n=1500时的约0.143。同时，a across the number of items (J).">表明增加条目数也能改善a的估计，但其效果相比样本量更为有限，尤其是在小样本条件下。
•
反应类别数的影响：与n和J相比，反应类别数(K)对a的估计精度影响微乎其微。无论K如何变化，RMSE随n下降的模式基本一致，a with sample size (n).">中的箱线图清晰显示了这一点。这说明，单纯增加反应选项的数目，对于提升项目区分度参数的估计准确性贡献不大。
•
效益递减现象：研究还发现，当条目数J增加到大约30个以上时，RMSE的降低速度明显放缓，出现效益递减。这意味着无限增加条目数对于提升a的估计精度可能并不经济。

潜在特质参数θ的估计精度

•
条目数的主导作用：对于潜在特质θ的估计，条目数(J)展现了压倒性的影响力。显示，RMSE随着J的增加而大幅下降，特别是在J从5增加到30的过程中改善最为明显。这与IRT理论一致，即θ的估计精度主要取决于测验提供的总信息量，而增加条目是提升总信息量的最有效途径。
•
样本量与反应类别数的有限影响：与a的估计不同，样本量(n)对θ的RMSE影响很小。对比n=500和n=1500的条件，平均RMSE差异微弱。综合反映了这一模式。同时，增加反应类别数(K)带来的精度提升也非常有限。
•
极高的顺序一致性：尽管绝对误差(RMSE)受设计条件影响，但估计值θ^与真实值θ之间的皮尔逊相关系数在所有实验条件下都 consistently exceeded r = .98，显示其稳定在高位。这表明，即使在小样本下，GRM也能非常好地保持个体在潜在特质上的相对顺序（序次保真性），这对于许多关注个体差异排序的研究目的而言已经足够。

研究结论与讨论

本研究通过系统的模拟分析，得出了明确且具有实践指导意义的结论：GRM的样本量需求应根据具体的测量目标进行差异化、灵活的规划。

首先，研究证实了样本量(n)和条目数(J)之间存在权衡与互补关系。对于潜在特质(θ)的准确估计，增加条目数是关键。一个足够大的条目集（例如J ≥ 30）可以在一定程度上补偿较小的样本量（如n ≈ 500），即可达到可接受的估计精度。这意味着，如果研究核心目标是评估个体特质水平或进行个体间的排序比较，可以优先保证足够的条目数量，对样本量的要求可以相对放宽。

其次，对于项目区分度参数(a)的精确估计，则需要更大的样本量（n ≥ 1000）。因为a的估计依赖于每个条目获得足够的应答数据，更大样本能提供更稳定的条目层面信息。增加条目数对提升a的估计也有帮助，但效果不如增加样本量显著。

最后，研究的一个重要发现是，增加反应类别数(K)对提升θ或a的估计精度作用有限。虽然理论上更多类别能提供更多信息，但在实际估计中，其收益很快达到平台。因此，在设计量表时，盲目增加选项（如从5点增加到7点）可能并非提升测量精度的有效策略，反而可能增加受访者负担。

这些发现对现有指南（如COSMIN推荐的n=1000）提出了重要的补充和修正建议。它指出，一刀切的样本量推荐可能并不合理。研究的意义在于提供了实证驱动的设计原则：当测量目标是θ时，可采取“以条目换样本”的策略；当测量目标是a时，则必须保证足够的样本。同时，应理性看待反应类别数的作用，4-5个类别可能是兼顾信息量与实用性的选择。

当然，本研究也存在一些局限性，例如只考虑了单维GRM、设定了特定的参数分布、未纳入缺失数据和局部依赖性等现实复杂因素。未来的研究可以朝向多维模型、更现实的参数分布、以及包含不完美数据的模拟情境拓展。

总之，这项发表在《PLOS One》上的研究，通过严谨的蒙特卡罗模拟，为心理测量学、健康医学评估等领域的量表开发与验证工作提供了宝贵的实证依据。它倡导了一种更具弹性、更注重成本效益的测量设计思维，帮助研究者在资源约束下，做出更明智的样本量、条目数和反应格式决策，从而推动更高效、更可靠的科学研究与实践应用。

联系信箱：

粤ICP备09063491号

热点排行