《Applied Sciences》:PCAT: A Software System for Cross-Product Commonality Analysis in Engineer-to-Order Manufacturing
Georgios Konstantinos Kourtis,
Lars Hvam,
Anders Haug,
Sara Helene Markworth Johnsen and
Mariana Fernandez Correa
编辑推荐:
研究人员提出了一种融合深度神经网络与通用项目反应理论(Generalized Partial Credit Model, GPCM)的端到端自动作文评分框架。该模型通过多层感知机(Multilayer Perceptron, MLP)将作文文本映射为学生潜在能
研究人员提出了一种融合深度神经网络与通用项目反应理论(Generalized Partial Credit Model, GPCM)的端到端自动作文评分框架。该模型通过多层感知机(Multilayer Perceptron, MLP)将作文文本映射为学生潜在能力参数θi,并利用GPCM建模题目参数αj(区分度)与βjk(难度阈值)。为保障心理测量学解释性,研究采用Softplus函数约束βjk单调递增,并通过缩放Sigmoid将θi限定于[-3, 3]区间。训练过程联合优化所有参数,损失函数为预测分数分布与实际分数的交叉熵。实验表明,三层MLP在稳定性与参数效率间取得最优平衡,所提约束有效解决了单题项设计下的参数不可识别问题,实现了评分结果的跨提示可比性。
研究背景与意义
传统自动作文评分(Automated Essay Scoring, AES)系统依赖人工设计特征或浅层模型,难以捕捉语义深层关联,且缺乏心理测量学效度保障。项目反应理论(Item Response Theory, IRT)虽能提供可解释的潜在能力度量,但其线性假设限制了复杂文本特征的拟合能力。本研究发表于《Applied Sciences》,旨在融合深度学习特征提取能力与IRT的 psychometric 可解释性,构建兼具高精度与测量学严谨性的AES框架,解决单题项设计下的参数识别难题,确保评分结果在不同作文题目间的可比性。
关键技术方法
研究人员采用端到端训练的三层MLP(768×256×64×1)作为特征投影网络,输入为预训练文本嵌入。潜在能力θi经缩放Sigmoid(θi= 6·σ(zi) - 3)映射至[-3, 3]区间。GPCM参数αj通过Softplus函数约束为正,βjk采用累积和参数化(βjk= Σm=1kexp(δjm))确保单调性。训练使用交叉熵损失,联合优化神经网络权重与IRT参数。
研究结果
3.3.3. 基于IRT的潜在特质估计模块
采用GPCM计算学生i在题目j上获得分数k的概率:P(Yij=k|θi) = exp(Σm=1kαj(θi-βjm)) / Σc=0Kjexp(Σm=1cαj(θi-βjm))。实验表明,三层MLP相比二层结构提升θ估计稳定性,四层则导致过拟合。
3.3.4. 参数化与可识别性约束
通过约束αj>0及βjk单调递增,解决了单题项设计下的尺度不确定性。θi的区间限制防止优化发散,确保不同题目间能力量表的内部一致性。
讨论与结论
研究证实,深度特征投影与IRT的结合能有效平衡预测精度与心理测量学解释性。所提参数约束策略成功克服了单题项建模中的识别难题,使模型输出的θi具有跨提示可比性。该方法为教育测评提供了可验证的自动化工具,未来可扩展至多模态评分场景。