两全其美：基于项目反应理论（IRT）增强的可解释自动作文评分

《Behavioral Sciences》：The Best of Two Worlds: IRT-Enhanced Automated Essay Interpretable Scoring Wei Xia, Jin Wu, Jiarui Yu and Chanjin Zheng

【字体：大中小】 时间：2026年04月14日 来源：Behavioral Sciences 2.5

编辑推荐：

　　自动作文评分（Automated Essay Scoring, AES）系统面临两个根本性挑战：限制教育者信任的不透明“黑箱”决策机制，以及在语言多样化的教育情境中验证不足的问题。本研究提出了IRT-AESF，这是一种通过集成项目反应理论（Item Respo

自动作文评分（Automated Essay Scoring, AES）系统面临两个根本性挑战：限制教育者信任的不透明“黑箱”决策机制，以及在语言多样化的教育情境中验证不足的问题。本研究提出了IRT-AESF，这是一种通过集成项目反应理论（Item Response Theory, IRT）与深度学习，从而桥接教育测量理论与人工智能的创新框架。该框架生成三个具有理论依据的心理测量参数：学生能力（student ability）、题目区分度（item discrimination）和题目难度（item difficulty），这些参数为评分决策提供了透明且可解释的解释。研究人员通过在包含来自英语和中文教育环境（包括课堂评估和高压考试）的41,328篇真实作文的三个大规模数据集上进行5折交叉验证，严格评估了IRT-AESF。结果表明，与竞争基线模型相比有统计学显著的改进，在保持稳健的跨语言性能的同时，二次加权kappa（quadratic weighted kappa）相对提高了8.4%。本研究推动了透明、可信赖的自动评估系统的发展，这些系统不仅提供分数，还为教育实践提供有意义的诊断见解。

论文解读：基于IRT与深度学习的可解释自动作文评分框架（IRT-AESF）

研究背景与问题提出

自动作文评分（Automated Essay Scoring, AES）旨在利用自然语言处理与机器学习技术替代人工阅卷，以解决人工评分成本高、耗时长且易受评分者特征（如严格度、一致性）偏差影响的问题。然而，当前AES研究面临核心矛盾：随着深度学习模型（如基于BERT的预训练语言模型和生成式大语言模型LLM）预测精度的提升，模型的决策过程愈发呈现“黑箱”不透明状态，缺乏心理测量学的理论支撑与可解释性，导致教育从业者难以信任其评分逻辑；同时，现有系统在跨语言（如英语与汉语）及不同教育场景（课堂测验与高利害考试）中的泛化验证仍显不足。为兼顾评分精度与决策透明度，并向教育者提供具有诊断价值的反馈，研究人员开展了将经典测量理论——项目反应理论（Item Response Theory, IRT）与深度神经网络架构相融合的研究，提出了IRT-AESF（IRT-enhanced Automated Essay Scorable Framework）框架，并在《Behavioral Sciences》发表了相关成果。

主要关键技术方法

研究人员采用端到端（end-to-end）的单阶段集成训练策略。文本编码部分使用在大规模语料上预训练的Transformer模型（如BERT或RoBERTa）获取作文的上下文嵌入表示；随后通过全连接层与定制的有界激活函数映射出潜在特质参数θ_i（学生能力）。框架核心是将广义分部评分模型（Generalized Partial Credit Model, GPCM）的公式重构为可微分的损失函数，使神经网络的输出直接对应IRT的三大心理测量参数：学生能力θ_i、题目区分度参数α_j和题目阈值难度参数β_j,m。为确保参数可识别性与心理测量意义，研究对α_j施加Softplus正值约束，对β_j,m施加累积和（cumulative sum）单调递增约束，并将θ_i通过缩放Sigmoid函数限定在[-3, 3]区间。模型训练采用交叉熵损失，并在三个大规模数据集（共计41,328篇来自中英教育环境的真实作文，涵盖课堂评估与高利害考试）上进行了5折交叉验证。

研究结果

3.1 从黑箱预测到理论驱动的测量（From Black-Box Prediction to Theory-Driven Measurement）

研究人员指出，传统深度学习AES模型虽能预测分数，但无法提供“为何给出此分”的心理测量学解释。通过引入IRT-GPCM模型，框架将评分过程转化为对潜在特质（latent trait）θ_i及题目参数（α_j, β_j,m）的估计。研究表明，这种理论驱动的方法使评分决策不再仅是概率输出，而是可由教育测量指标加以阐释，从而解决了黑箱信任危机。

3.2 IRT-AESF框架架构（The IRT-AESF Framework Architecture）

研究人员构建了将深度神经网络特征提取器与IRT参数生成层无缝连接的统一架构。编码器输出经变换后得到θ_i，并同时回归出α_j和β_j,m。研究通过公式推导证明了该神经网络的前向计算在形式上等价于GPCM的概率计算，但可通过梯度下降进行高效参数学习。结论表明，该架构成功将测量理论与深度表示学习融合，实现了单一模型输出分数与诊断参数。

3.3 广义分部评分模型（GPCM）作为可微分目标（The Generalized Partial Credit Model (GPCM) as a Differentiable Objective）

研究人员详细阐述了GPCM在多级评分（polytomous scoring）中的数学形式，并将其转化为神经网络训练时可优化的损失函数?。通过输入作文特征，模型直接计算各类别概率P(Y_ij=k|θ_i)，并选取最大概率类别作为最终预测分数S_i。结论认为，GPCM为神经网络提供了具备严格心理测量意义的优化目标。

3.3.4 参数化与可识别性约束（Parameterization and Identifiability Constraints）

为保证单题（single-item）建模设计下的心理测量解释有效性，研究人员对参数施加了约束：阈值参数β_j,k定义为正步长值δ_j,m的累积和（或Softplus变换），确保难度随分数等级严格单调增加；区分度参数α_j通过Softplus(constant + α?_j)约束为正值，避免符号不定并保证能力与得分概率的正相关；潜在能力θ_i通过θ_i= 6·σ(z_i) - 3 映射到[-3, 3]区间以限定方差。这些约束为每道题目固定了内部一致的测量量表，确保了参数估计的稳定与可解释性。

3.4 损失函数（Loss Function）

研究人员采用交叉熵损失函数，最小化预测概率分布与真实独热（one-hot）得分标签之间的差异。损失函数涵盖了所有样本i及所有得分类别k的对数似然计算。研究表明，该损失函数与GPCM的似然估计一致，能够有效指导网络同时优化分数预测精度与IRT参数估计。

讨论与结论

研究人员通过实验验证表明，IRT-AESF框架在三个大规模跨语言数据集上均取得了优于传统深度学习AES基线模型的表现，二次加权Kappa（Quadratic Weighted Kappa, QWK）相对提升达8.4%，且保持了稳健的跨语言（英语、中文）性能。讨论部分指出，该框架的重要意义在于打破了AES领域“精度—可解释性”的权衡（trade-off）：它不仅提供了准确的评分，还通过输出的IRT参数（学生能力θ、题目区分度α、题目难度阈值β）赋予了评分结果透明的心理测量学含义，使系统能够像人类专家一样提供诊断性见解（如某生能力如何、某题目区分度怎样、各得分等级的难度阈值在哪）。这种融合教育测量理论与人工智能的方法，推动了可信赖、透明且具备诊断价值的自动评估系统的发展，对教育实践中的形成性评价与总结性评价均具有应用价值。

热点排行