《Behavioral Sciences》:The Best of Two Worlds: IRT-Enhanced Automated Essay Interpretable Scoring
Wei Xia,
Jin Wu,
Jiarui Yu and
Chanjin Zheng
编辑推荐:
自动作文评分(Automated Essay Scoring, AES)系统面临两个根本性挑战:限制教育者信任的不透明“黑箱”决策机制,以及在语言多样化的教育情境中验证不足的问题。本研究提出了IRT-AESF,这是一种通过集成项目反应理论(Item Respo
自动作文评分(Automated Essay Scoring, AES)系统面临两个根本性挑战:限制教育者信任的不透明“黑箱”决策机制,以及在语言多样化的教育情境中验证不足的问题。本研究提出了IRT-AESF,这是一种通过集成项目反应理论(Item Response Theory, IRT)与深度学习,从而桥接教育测量理论与人工智能的创新框架。该框架生成三个具有理论依据的心理测量参数:学生能力(student ability)、题目区分度(item discrimination)和题目难度(item difficulty),这些参数为评分决策提供了透明且可解释的解释。研究人员通过在包含来自英语和中文教育环境(包括课堂评估和高压考试)的41,328篇真实作文的三个大规模数据集上进行5折交叉验证,严格评估了IRT-AESF。结果表明,与竞争基线模型相比有统计学显著的改进,在保持稳健的跨语言性能的同时,二次加权kappa(quadratic weighted kappa)相对提高了8.4%。本研究推动了透明、可信赖的自动评估系统的发展,这些系统不仅提供分数,还为教育实践提供有意义的诊断见解。
论文解读:基于IRT与深度学习的可解释自动作文评分框架(IRT-AESF)
研究背景与问题提出
自动作文评分(Automated Essay Scoring, AES)旨在利用自然语言处理与机器学习技术替代人工阅卷,以解决人工评分成本高、耗时长且易受评分者特征(如严格度、一致性)偏差影响的问题。然而,当前AES研究面临核心矛盾:随着深度学习模型(如基于BERT的预训练语言模型和生成式大语言模型LLM)预测精度的提升,模型的决策过程愈发呈现“黑箱”不透明状态,缺乏心理测量学的理论支撑与可解释性,导致教育从业者难以信任其评分逻辑;同时,现有系统在跨语言(如英语与汉语)及不同教育场景(课堂测验与高利害考试)中的泛化验证仍显不足。为兼顾评分精度与决策透明度,并向教育者提供具有诊断价值的反馈,研究人员开展了将经典测量理论——项目反应理论(Item Response Theory, IRT)与深度神经网络架构相融合的研究,提出了IRT-AESF(IRT-enhanced Automated Essay Scorable Framework)框架,并在《Behavioral Sciences》发表了相关成果。
主要关键技术方法
研究人员采用端到端(end-to-end)的单阶段集成训练策略。文本编码部分使用在大规模语料上预训练的Transformer模型(如BERT或RoBERTa)获取作文的上下文嵌入表示;随后通过全连接层与定制的有界激活函数映射出潜在特质参数θi(学生能力)。框架核心是将广义分部评分模型(Generalized Partial Credit Model, GPCM)的公式重构为可微分的损失函数,使神经网络的输出直接对应IRT的三大心理测量参数:学生能力θi、题目区分度参数αj和题目阈值难度参数βj,m。为确保参数可识别性与心理测量意义,研究对αj施加Softplus正值约束,对βj,m施加累积和(cumulative sum)单调递增约束,并将θi通过缩放Sigmoid函数限定在[-3, 3]区间。模型训练采用交叉熵损失,并在三个大规模数据集(共计41,328篇来自中英教育环境的真实作文,涵盖课堂评估与高利害考试)上进行了5折交叉验证。
研究结果
3.1 从黑箱预测到理论驱动的测量(From Black-Box Prediction to Theory-Driven Measurement)
研究人员指出,传统深度学习AES模型虽能预测分数,但无法提供“为何给出此分”的心理测量学解释。通过引入IRT-GPCM模型,框架将评分过程转化为对潜在特质(latent trait)θi及题目参数(αj, βj,m)的估计。研究表明,这种理论驱动的方法使评分决策不再仅是概率输出,而是可由教育测量指标加以阐释,从而解决了黑箱信任危机。
3.2 IRT-AESF框架架构(The IRT-AESF Framework Architecture)
研究人员构建了将深度神经网络特征提取器与IRT参数生成层无缝连接的统一架构。编码器输出经变换后得到θi,并同时回归出αj和βj,m。研究通过公式推导证明了该神经网络的前向计算在形式上等价于GPCM的概率计算,但可通过梯度下降进行高效参数学习。结论表明,该架构成功将测量理论与深度表示学习融合,实现了单一模型输出分数与诊断参数。
3.3 广义分部评分模型(GPCM)作为可微分目标(The Generalized Partial Credit Model (GPCM) as a Differentiable Objective)
研究人员详细阐述了GPCM在多级评分(polytomous scoring)中的数学形式,并将其转化为神经网络训练时可优化的损失函数?。通过输入作文特征,模型直接计算各类别概率P(Yij=k|θi),并选取最大概率类别作为最终预测分数Si。结论认为,GPCM为神经网络提供了具备严格心理测量意义的优化目标。
3.3.4 参数化与可识别性约束(Parameterization and Identifiability Constraints)
为保证单题(single-item)建模设计下的心理测量解释有效性,研究人员对参数施加了约束:阈值参数βj,k定义为正步长值δj,m的累积和(或Softplus变换),确保难度随分数等级严格单调增加;区分度参数αj通过Softplus(constant + α?j)约束为正值,避免符号不定并保证能力与得分概率的正相关;潜在能力θi通过θi= 6·σ(zi) - 3 映射到[-3, 3]区间以限定方差。这些约束为每道题目固定了内部一致的测量量表,确保了参数估计的稳定与可解释性。
3.4 损失函数(Loss Function)
研究人员采用交叉熵损失函数,最小化预测概率分布与真实独热(one-hot)得分标签之间的差异。损失函数涵盖了所有样本i及所有得分类别k的对数似然计算。研究表明,该损失函数与GPCM的似然估计一致,能够有效指导网络同时优化分数预测精度与IRT参数估计。
讨论与结论
研究人员通过实验验证表明,IRT-AESF框架在三个大规模跨语言数据集上均取得了优于传统深度学习AES基线模型的表现,二次加权Kappa(Quadratic Weighted Kappa, QWK)相对提升达8.4%,且保持了稳健的跨语言(英语、中文)性能。讨论部分指出,该框架的重要意义在于打破了AES领域“精度—可解释性”的权衡(trade-off):它不仅提供了准确的评分,还通过输出的IRT参数(学生能力θ、题目区分度α、题目难度阈值β)赋予了评分结果透明的心理测量学含义,使系统能够像人类专家一样提供诊断性见解(如某生能力如何、某题目区分度怎样、各得分等级的难度阈值在哪)。这种融合教育测量理论与人工智能的方法,推动了可信赖、透明且具备诊断价值的自动评估系统的发展,对教育实践中的形成性评价与总结性评价均具有应用价值。