基于通用项目反应理论（GPCM）的深度神经特征投影模型用于自动化作文评分

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Sciences》：Static and Dynamic Properties of Organic Soils Stabilized with Nano-Silica and Sand Gaoliang Tao, Ning Yang, Shaoping Huang, Qingsheng Chen and Eihui Guo

【字体：大中小】 时间：2026年04月08日 来源：Applied Sciences 2.5

编辑推荐：

　　研究人员提出了一种融合深度神经网络与通用项目反应理论（Generalized Partial Credit Model, GPCM）的自动化作文评分框架。该框架首先通过三层多层感知机（Multilayer Perceptron, MLP）将作文文本映射为学生潜

研究人员提出了一种融合深度神经网络与通用项目反应理论（Generalized Partial Credit Model, GPCM）的自动化作文评分框架。该框架首先通过三层多层感知机（Multilayer Perceptron, MLP）将作文文本映射为学生潜在能力参数θi，随后利用GPCM计算给定能力下的分数类别概率分布。为保障心理测量学解释的有效性，研究引入了单调性约束与正性约束，并通过缩放Sigmoid函数将能力值限定于传统IRT区间[-3, 3]。实验结果表明，三隐藏层结构在参数效率与估计稳定性间取得了最优平衡，所提方法在维持评分一致性的同时提供了可解释的能力量尺。

研究背景与意义

当前自动化作文评分（Automated Essay Scoring, AES）系统多侧重于预测准确性，却缺乏可解释的心理测量学基础，难以将分数与潜在能力进行关联。为解决这一问题，研究人员开发了结合深度特征提取与项目反应理论（Item Response Theory, IRT）的神经评分模型，旨在实现既精确又可解释的评分机制。该研究发表于《Applied Sciences》。

关键技术方法

研究采用三层MLP（768×256, 256×64, 64×1）作为特征投影网络，将作文文本编码为标量能力值θ_i。通过改进的Sigmoid函数将输出约束至[-3, 3]区间。GPCM参数（区分度α_j、难度阈值β_j,k）设为可训练变量，并利用累积和重参数化技术确保单调性。损失函数为交叉熵，联合优化所有参数。实验基于独立单题建模设计，未依赖外部预训练语料。

研究结果

3.3.3. 基于IRT的潜在特质估计模块

研究人员采用GPCM计算学生在题目j上获得分数k的概率。实验表明，三隐藏层MLP在能力估计稳定性上优于二层与四层结构，后者分别存在欠拟合与过拟合问题。最终选择的三层配置实现了表征能力与参数效率的最佳平衡。

3.3.4. 参数化与可识别性约束

为确保模型可识别，研究对GPCM参数施加了严格约束：难度阈值β_j,k通过Softplus函数保证单调递增；区分度α_j强制为正以避免符号不确定性；能力参数θ_i通过缩放Sigmoid限定于[-3, 3]。这些约束固定了各题目的内部量尺，保障了心理测量诊断的稳定性。

3.4. 损失函数

训练采用负对数似然损失函数?，最小化预测概率分布与人类评分的偏差。损失计算涵盖所有学生样本与分数类别，实现了端到端的联合优化。

讨论与结论

研究表明，所提框架成功地将深度学习的数据驱动特征与传统IRT的可解释参数相结合。通过引入可识别性约束，模型在单题独立建模情境下仍能保持稳定的心理测量属性。该方法不仅提升了AES系统的透明度，还为教育评估中的能力量化提供了新的技术路径。研究人员指出，未来工作可探索跨题目参数迁移及大规模实证验证。

联系信箱：

粤ICP备09063491号

热点排行