基于通用项目反应理论(GPCM)的深度神经特征投影模型用于自动化作文评分

《Applied Sciences》:Static and Dynamic Properties of Organic Soils Stabilized with Nano-Silica and Sand Gaoliang Tao, Ning Yang, Shaoping Huang, Qingsheng Chen and Eihui Guo

【字体: 时间:2026年04月08日 来源:Applied Sciences 2.5

编辑推荐:

  研究人员提出了一种融合深度神经网络与通用项目反应理论(Generalized Partial Credit Model, GPCM)的自动化作文评分框架。该框架首先通过三层多层感知机(Multilayer Perceptron, MLP)将作文文本映射为学生潜

  
研究人员提出了一种融合深度神经网络与通用项目反应理论(Generalized Partial Credit Model, GPCM)的自动化作文评分框架。该框架首先通过三层多层感知机(Multilayer Perceptron, MLP)将作文文本映射为学生潜在能力参数θi,随后利用GPCM计算给定能力下的分数类别概率分布。为保障心理测量学解释的有效性,研究引入了单调性约束与正性约束,并通过缩放Sigmoid函数将能力值限定于传统IRT区间[-3, 3]。实验结果表明,三隐藏层结构在参数效率与估计稳定性间取得了最优平衡,所提方法在维持评分一致性的同时提供了可解释的能力量尺。
研究背景与意义
当前自动化作文评分(Automated Essay Scoring, AES)系统多侧重于预测准确性,却缺乏可解释的心理测量学基础,难以将分数与潜在能力进行关联。为解决这一问题,研究人员开发了结合深度特征提取与项目反应理论(Item Response Theory, IRT)的神经评分模型,旨在实现既精确又可解释的评分机制。该研究发表于《Applied Sciences》。
关键技术方法
研究采用三层MLP(768×256, 256×64, 64×1)作为特征投影网络,将作文文本编码为标量能力值θi。通过改进的Sigmoid函数将输出约束至[-3, 3]区间。GPCM参数(区分度αj、难度阈值βj,k)设为可训练变量,并利用累积和重参数化技术确保单调性。损失函数为交叉熵,联合优化所有参数。实验基于独立单题建模设计,未依赖外部预训练语料。
研究结果
3.3.3. 基于IRT的潜在特质估计模块
研究人员采用GPCM计算学生在题目j上获得分数k的概率。实验表明,三隐藏层MLP在能力估计稳定性上优于二层与四层结构,后者分别存在欠拟合与过拟合问题。最终选择的三层配置实现了表征能力与参数效率的最佳平衡。
3.3.4. 参数化与可识别性约束
为确保模型可识别,研究对GPCM参数施加了严格约束:难度阈值βj,k通过Softplus函数保证单调递增;区分度αj强制为正以避免符号不确定性;能力参数θi通过缩放Sigmoid限定于[-3, 3]。这些约束固定了各题目的内部量尺,保障了心理测量诊断的稳定性。
3.4. 损失函数
训练采用负对数似然损失函数?,最小化预测概率分布与人类评分的偏差。损失计算涵盖所有学生样本与分数类别,实现了端到端的联合优化。
讨论与结论
研究表明,所提框架成功地将深度学习的数据驱动特征与传统IRT的可解释参数相结合。通过引入可识别性约束,模型在单题独立建模情境下仍能保持稳定的心理测量属性。该方法不仅提升了AES系统的透明度,还为教育评估中的能力量化提供了新的技术路径。研究人员指出,未来工作可探索跨题目参数迁移及大规模实证验证。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号