融合BERT与超图注意力网络(HyperGAT)及孪生神经网络(Siamese Networks)和参考答案集(Reference Answer Set, RAS)的短答案自动评分方法
《Behavioral Sciences》:BERT-Enhanced HyperGAT with Siamese Networks and Reference Answer Set for Automated Short-Answer Scoring
编辑推荐:
摘要:本文提出一种新颖框架HyperGAT-BERT-RAS,该框架整合:(1) 融合BERT的超图注意力网络(HyperGraph Attention Network with BERT, HyperGAT-BERT)以增强语义表示;(2) 通过对满分答案聚
摘要:本文提出一种新颖框架HyperGAT-BERT-RAS,该框架整合:(1) 融合BERT的超图注意力网络(HyperGraph Attention Network with BERT, HyperGAT-BERT)以增强语义表示;(2) 通过对满分答案聚类构建的参考答案集(Reference Answer Set, RAS);(3) 用于基于相似度评分的孪生神经网络(Siamese Neural Networks, SNNs)。在Ohsumed数据集和ASAP-5数据集上的实验表明:(i) HyperGAT-BERT在Ohsumed文本分类任务上达到72.95%准确率,较基线HyperGAT提升3.28%;(ii) 完整的HyperGAT-BERT-RAS达到78.66%准确率与0.7806 F1值,其中RAS对性能提升贡献最大。上述改进表明该方法有望实现对多样化学生答案更可靠的评分、减轻教师阅卷负担,并增强真实课堂中AI辅助形成性评估的可行性,但仍需开展师生实证验证。
论文解读:HyperGAT-BERT-RAS——融合超图注意力网络、BERT与参考答案集的短答案自动评分研究
一、研究背景与立题依据
自动短答案评分(Automated Short-Answer Scoring, ASAG)在日常课堂教学中有望减轻教师人工阅卷的时间负担并提高反馈及时性,但现有方法面临两个核心瓶颈:一是学生答案表述的高度多样性,同一正确概念可用不同措辞表达,而传统关键词匹配或单一参考答案易导致正确但措辞新颖的答案被误判为错误;二是得分边界模糊,部分正确或创造性表述易落入分数等级间的"灰色区域"造成分类困难。早期机器学习方法依赖人工特征工程难以捕捉复杂语义;CNN与LSTM减少了人工特征需求但对全局语义交互建模不足;图卷积网络(Graph Convolutional Network, GCN)虽能建模全局结构但假定邻接节点同等重要且仅支持两两连接,难以刻画学生答案中的高阶多词语义关系。超图(Hypergraph)允许一条超边(Hyperedge)连接任意数量节点,可更好建模高阶语义;超图注意力网络(HyperGAT)在此基础上引入双重注意力机制。BERT预训练语言模型可生成上下文相关的动态词向量解决一词多义,但单独使用难以捕捉学生答案与参考答案间的结构化语义关系。此外,传统ASAG多依赖有限预设参考答案,覆盖率不足导致多样正确答案被漏判。基于此,研究人员提出将BERT语义表示能力与HyperGAT高阶关系建模相融合,并通过聚类满分答案构建多原型参考答案集(Reference Answer Set, RAS),嵌入孪生神经网络(Siamese Neural Network, SNN)计算细粒度语义相似度,形成HyperGAT-BERT-RAS框架用于ASAP-5生物学短答案自动评分任务,并以Ohsumed医学文本分类基准验证基础文本分类性能。本文发表于《Behavioral Sciences》。
二、主要关键技术方法
研究人员采用Ohsumed数据集(心血管文献摘要,7400条单标签样本,8:2随机切分训练与验证)验证HyperGAT-BERT文本分类能力;采用ASAP-5数据集(10年级生物学"从mRNA离开细胞核开始列举并描述蛋白质合成四大主要步骤"的短答案,0–3分四档评分)进行ASAG实验。技术方法包括:(1) HyperGAT-BERT:以词为超节点构建句法超边(词序)与语义超边(语义关系),经节点级与超边级双重注意力得到超图文本表示,与BERT-base-uncased生成的[CLS]上下文表示拼接(Concat)后送入Softmax分类;(2) RAS构建:筛选ASAP-5中满分(3分)答案,BERT向量化后K-means聚类,按轮廓系数最高选定k=4,每簇选最具代表性答案组成含4条满分原型的RAS;(3) HyperGAT-BERT-RAS:孪生式设计——同批处理学生答案与RAS中各参考答案,分别获得HyperGAT+BERT拼接表示后计算余弦相似度,取最大值Smax,将学生答案的超图嵌入、BERT嵌入与Smax拼接作为最终文档表示再分类;(4) 消融设计移除语义超边(w/o LDA)、移除BERT嵌入(w/o BERT)、移除RAS(w/o RAS),各模型重复10次不同随机种子训练,采用Accuracy(ACC)、Precision(P)、F1-score(F1)评估,配对t检验进行显著性分析。
三、研究结果
2.2.3. Experimental Results(文本分类性能验证)
研究人员在Ohsumed数据集上将HyperGAT-BERT与SWEM、CNN-non-static、Text-level GNN、HyperGAT及BERT对比。HyperGAT-BERT取得最高准确率0.7295(±SD未单独报告但文中引述优于基线),较HyperGAT提升3.28%,较BERT提升2.93%,较Text-level GNN提升3.5%。混淆矩阵显示HyperGAT-BERT在大多数类别上正确分类数增加。嵌入维度敏感性分析表明维度=300时最优。证明BERT与HyperGAT融合可显著增强语义表示能力,为后续ASAG任务提供有效文本编码基础。
3.2.2. Ablation Experiment Results(ASAP-5自动短答案评分消融实验)
完整HyperGAT-BERT-RAS在ASAP-5上取得ACC=0.7866±0.0134,P=0.7898±0.0132,F1=0.7806±0.0110,为所有变体中最高。移除RAS(w/o RAS)导致精度剧降至0.4107±0.0589、F1降至0.4188±0.0487(p<0.001),确认RAS是框架中最关键组件。移除语义超边(w/o LDA)使ACC显著下降(p<0.05)但F1无显著差异,说明LDA语义超边贡献有限。移除BERT嵌入(w/o BERT)未引起统计显著下降(p>0.05),表明在此特定数据集与任务中框架核心贡献来自RAS引导的孪生相似度评分机制。
3.2.3. Error Analysis(误差分析)
测试集(N=451)主要误判发生于相邻分数级:0分→1分误判率15.50%,2分→3分误判率23.08%,跨两级以上误判仅3.51%,说明模型具良好序数一致性(ordinal consistency)。误分类归因约52%为边界模糊(boundary ambiguity)、27%为语义相似(semantic similarity)导致与错误答案匹配、15%为非常规表述(unconventional expression)未充分匹配RAS原型。指出未来可通过引入序数损失函数(ordinal loss functions)及扩展RAS至多分数等级代表性答案以降低相邻级误判。
四、讨论与结论总结
讨论部分指出:(1) BERT与HyperGAT融合提升了一般文本分类表现,但在ASAP-5的ASAG任务中BERT单独去除无统计显著负面影响,核心增益来自RAS引导的SNN相似度机制;(2) RAS仅由满分答案构建捕捉了正确回答的多样性,但若纳入各分数等级代表答案有望减少中间分数(如2分?3分)误判;(3) 相邻级误判在教学中属可接受范围,可先由模型自动评分明确定界案例、教师仅复核边界案例,形成人机协同评分流程;(4) 局限包括未在同条件下系统比较RoBERTa/DeBERTa/T5等更新预训练模型、RAS未涵盖非满分典型答案、仅在ASAP-5单道生物题验证尚未拓展至其他学科或语言、缺乏真实课堂师生用户研究。
结论翻译:
本研究通过构建HyperGAT-BERT与HyperGAT-BERT-RAS方法以应对主观题自动评分挑战,得出:(1) 融入BERT丰富语义信息使HyperGAT-BERT能更好表示文本并提高文本分类性能——在Ohsumed数据集上HyperGAT-BERT达72.95%准确率,超越基线HyperGAT模型3.28%,证明了BERT语义增强对文本分类任务的有效性;(2) 应用于主观题自动评分时,消融实验揭示RAS是ASAP-5数据集上唯一具统计显著贡献的组件,移除BERT嵌入或LDA语义超边未致统计显著性能下降,表明在此特定数据集中框架核心贡献来自RAS引导的孪生评分机制而非BERT融合。需注意上述结论基于ASAP-5单道生物题实验得出,推广至更广泛ASAG情境需谨慎;本研究亦未包含师生用户研究,关于减负、信任及学习成效的表述为潜在意义而非已证实结果,需在真实课堂中进一步验证。