面向单语与多语(multilingual)西班牙语使用者之公平的词汇判断任务(Lexical Decision Task, LDT)——ROAR Palabra的开发与验证

《Frontiers in Psychology》：A fair lexical decision task for monolingual and multilingual Spanish-speakers

【字体：大中小】 时间：2026年06月23日 来源：Frontiers in Psychology 2.9

编辑推荐：

　　摘要：本研究描述并验证了ROAR Palabra——一种新型西班牙语词汇判断任务(Lexical Decision Task, LDT)，适用于西班牙语单语儿童及西班牙语–英语双语(bilingual)者。该自施测任务要求被试判断屏幕上呈现的字符串是否为西班牙

摘要：本研究描述并验证了ROAR Palabra——一种新型西班牙语词汇判断任务(Lexical Decision Task, LDT)，适用于西班牙语单语儿童及西班牙语–英语双语(bilingual)者。该自施测任务要求被试判断屏幕上呈现的字符串是否为西班牙语真词(real word)。已有证据表明英语LDT得分可高度预测传统（耗时且资源密集型的）英语单词朗读测评成绩，研究人员在此探讨此关系是否同样存在于正字法高度透明(transparent orthography)的西班牙语中。具体目标为：(i) 利用项目反应理论(Item-Response Theory, IRT)构建语言学公平的(linguistically fair)任务；(ii) 检验该任务能否作为传统单词阅读测量的可靠替代指标，为跨语言与文化背景提供快速、易施测的阅读技能筛查工具。结果显示ROAR Palabra成绩与Woodcock-Mu?oz Batería IV等标准化单词阅读测验呈强相关，表明其可作为替代测量；该任务对单语与多语组别的语言能力差异敏感，反映出预期的发展与环境效应。虽非专为单语–多语群体比较而设计，本研究结果凸显了该任务作为适应性强、文化可调适的工具，在不同西班牙语及双语情境下开展阅读评估的潜力。

论文解读：ROAR Palabra——面向单语与多语西班牙语使用者的西班牙语词汇判断任务之开发与验证

《Frontiers in Psychology》刊载的此项研究针对当前阅读评估工具在语言多样性群体中适用性不足的问题展开。传统阅读测评（如Woodcock-Mu?oz Batería IV字母–单词辨认子测验Identificación de Letras y Palabras, WM-LWID）通常为个别施测、费时费力，且多基于单语英语背景校准，易低估多语(multilingual/bilingual)学生真实语言能力或产生测量偏差。英语词汇判断任务(Lexical Decision Task, LDT)如ROAR-Word已被证实是单词阅读能力的高效替代指标（与Woodcock-Johnson字母–单词辨认相关r = 0.94），但西班牙语具高度透明正字法(shallow/transparent orthography)，其LDT在儿童及多语群体中效用尚待验证。为此，研究人员开发了专为由哥伦比亚单语西班牙语儿童与美国西班牙语–英语双语儿童使用的西班牙语LDT——ROAR Palabra，采用项目反应理论(Item-Response Theory, IRT)保障题目跨群体参数不变性(parameter invariance)与语言学公平性(linguistically fair assessment)，并检验其与标准化西语单词阅读测验之效标关联效度(criterion validity)。

关键研究方法简述：

研究样本含哥伦比亚波哥大公立/特许学校1–11年级单语西班牙语学生N=5,582人，及美国（主要为加州）西班牙语–英语双语小学生N=845人。真词刺激由ChatGPT按SUBTLEX-ESP及Davies高频词库筛选（频率≥10/百万、跨美洲西语区通用、4–12字母），配匹假词(pseudoword)由Wuggy算法生成匹配词长、字母转换频率及正字邻域大小(Orthographic Levenshtein Distance)，并由五地母语者审校剔除区域生僻词及英文真词。初版题库378题（189真词+189假词），核心题库(core corpus)70题（35真+35假），扩展题库(extended corpus)308题。施测时词语呈现350 ms，二选一强制按键判断真/假词，无限时反应。排除中位反应时<450 ms且正确率<65%的随机作答者。用mirt包(R语言)拟合1PL模型（设猜测参数guessing parameter = 0.50）及2PL模型获区分度参数(discrimination parameter, α)，以期望后验(EAP)估计能力值θ。效标关联效度以哥伦比亚亚样本之WM-LWID（真词朗读）、WM-Word Attack/Análisis de Palabras（假词解码）及基本阅读技能(Basic Reading Skills, BRS)合成分数为参照，进行相关与GAM平滑分析。

研究结果：

■ 项目反应与样本表现(Item responses & Sample performance and median response times)

研究人员发现中位反应时<450 ms且正确率接近机会水平(chance level, ~50%)，提示快速随机点击行为，据此剔除6.94%受试者（哥伦比亚5.71%，美国15.03%）。原始总分呈双峰分布，反映低年级初学读者与高年级熟练读者并存；随年级升高正确率提升、反应时缩短。

■ 题目属性(Item properties)

真词比假词(pseudoword)容易（右峰vs左峰），两国子样本题目难度相关r = 0.93，表明题目难度排序高度一致。点二列相关(point-biserial correlation)大多>0.20，与WM-LWID原始分之点二列相关多数可接受，仅2个真词偏低(<0.10)。

■ IRT模型构建(IRT model building)

经逐题筛除（点二列相关<0.10、题目拟合欠佳in-fit/out-fit超出0.60–1.40），最终核心题库保留66题（33真词+33假词）。所有题目区分度参数α>0.50。加入通过相同标准筛选的扩展题库题目并以核心题库参数为锚固定再校准，得最终1PL模型。整体实证信度(empirical reliability, ρ_xx')=0.938（哥伦比亚子样本ρ=0.887，美国子样本ρ=0.936）；分年级信度一年级0.705至三年级0.918不等。

■ 参数不变性(Parameter invariance)

仅取两国均有之1–2年级数据分别及联合校准1PL模型，联合vs分别校准题目难度参数相关r = 0.96（哥伦比亚）及r = 0.91（美国），两国分别校准参数间r = 0.77，支持跨国界/跨语言背景题目功能相似性，满足测量不变性初步条件。

■ 效度证据(Validity evidence)

ROAR Palabra之θ分数与WM基本阅读技能(BRS)原始分呈中度至高度相关，与WM-LWID及WM-Word Attack亦呈显著相关。各年级平均θ分数随年级单调上升，符合阅读发展预期，提供聚合效度(convergent validity)证据。

讨论与结论翻译总结：

本研究证明经仔细开发的同一西班牙语LDT（ROAR Palabra）可用于哥伦比亚单语及美国西班牙语–英语双语一至二年级学生，两国重叠年级之题目参数及θ分数分布高度相似，且与Woodcock-Mu?oz Batería IV之WM-LWID及WM-Word Attack子测验呈中–高强度相关，可作为传统一对一施测单词阅读评估之高效替代工具。题目呈词汇性效应(lexicality effect)：真词较易、假词较难但区分度更高，此现象可能与西班牙语透明正字法致解码需求低、LDT更多反映词汇通达(vocabulary size/lexical access)有关。ROAR Palabra在重叠年级显示测量不变性，具备语言学公平性之必要（非充分）条件，但直接跨组比较仍需各群体常模。未来需扩大美国高年级双语样本、扩充难题真词题库以支持计算机自适应测试(Computerized Adaptive Testing, CAT)，并考察教学语言模式等异质性影响。总之，ROAR Palabra是一款可靠的自施测西班牙语LDT，适合科研与教育场景筛查西语单词阅读能力，其开发流程——含多变体西语母语者审题、分亚组题目筛选及参数不变性检验——为面向多语群体的语言学公平测评树立范式。

热点排行