基于通用项目反应理论的多层神经特征投影自动作文评分模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Sciences》：PCAT: A Software System for Cross-Product Commonality Analysis in Engineer-to-Order Manufacturing Georgios Konstantinos Kourtis, Lars Hvam, Anders Haug, Sara Helene Markworth Johnsen and Mariana Fernandez Correa

【字体：大中小】 时间：2026年04月14日 来源：Applied Sciences 2.5

编辑推荐：

　　研究人员提出了一种融合深度神经网络与通用项目反应理论(Generalized Partial Credit Model, GPCM)的端到端自动作文评分框架。该模型通过多层感知机(Multilayer Perceptron, MLP)将作文文本映射为学生潜在能

研究人员提出了一种融合深度神经网络与通用项目反应理论(Generalized Partial Credit Model, GPCM)的端到端自动作文评分框架。该模型通过多层感知机(Multilayer Perceptron, MLP)将作文文本映射为学生潜在能力参数θi，并利用GPCM建模题目参数αj（区分度）与βjk（难度阈值）。为保障心理测量学解释性，研究采用Softplus函数约束βjk单调递增，并通过缩放Sigmoid将θi限定于[-3, 3]区间。训练过程联合优化所有参数，损失函数为预测分数分布与实际分数的交叉熵。实验表明，三层MLP在稳定性与参数效率间取得最优平衡，所提约束有效解决了单题项设计下的参数不可识别问题，实现了评分结果的跨提示可比性。

研究背景与意义

传统自动作文评分(Automated Essay Scoring, AES)系统依赖人工设计特征或浅层模型，难以捕捉语义深层关联，且缺乏心理测量学效度保障。项目反应理论(Item Response Theory, IRT)虽能提供可解释的潜在能力度量，但其线性假设限制了复杂文本特征的拟合能力。本研究发表于《Applied Sciences》，旨在融合深度学习特征提取能力与IRT的 psychometric 可解释性，构建兼具高精度与测量学严谨性的AES框架，解决单题项设计下的参数识别难题，确保评分结果在不同作文题目间的可比性。

关键技术方法

研究人员采用端到端训练的三层MLP（768×256×64×1）作为特征投影网络，输入为预训练文本嵌入。潜在能力θ_i经缩放Sigmoid（θ_i= 6·σ(z_i) - 3）映射至[-3, 3]区间。GPCM参数α_j通过Softplus函数约束为正，β_jk采用累积和参数化（β_jk= Σ_m=1^kexp(δ_jm)）确保单调性。训练使用交叉熵损失，联合优化神经网络权重与IRT参数。

研究结果

3.3.3. 基于IRT的潜在特质估计模块

采用GPCM计算学生i在题目j上获得分数k的概率：P(Y_ij=k|θ_i) = exp(Σ_m=1^kα_j(θ_i-β_jm)) / Σ_c=0^K_jexp(Σ_m=1^cα_j(θ_i-β_jm))。实验表明，三层MLP相比二层结构提升θ估计稳定性，四层则导致过拟合。

3.3.4. 参数化与可识别性约束

通过约束α_j>0及β_jk单调递增，解决了单题项设计下的尺度不确定性。θ_i的区间限制防止优化发散，确保不同题目间能力量表的内部一致性。

讨论与结论

研究证实，深度特征投影与IRT的结合能有效平衡预测精度与心理测量学解释性。所提参数约束策略成功克服了单题项建模中的识别难题，使模型输出的θ_i具有跨提示可比性。该方法为教育测评提供了可验证的自动化工具，未来可扩展至多模态评分场景。

联系信箱：

粤ICP备09063491号

热点排行