《Information》:TVAE-GAN: A Generative Model for Providing Early Warnings to High-Risk Students in Basic Education and Its Explanation
Chao Duan,
Yiqing Wang,
Wenlong Zhang,
Zhongtao Yu,
Yu Pei,
Mingyan Zhang and
Qionghao Huang
编辑推荐:
本研究聚焦在线教育中学生行为数据高维时序、噪声干扰及类别不平衡难题,提出融合LSTM时序变分自编码器(TVAE)与生成对抗网络(GAN)的TVAE-GAN模型,通过重构行为特征与生成合成样本优化数据质量,显著提升学业风险预测的准确率与鲁棒性,为智能教育精准干预提供新范式。
随着在线教育的普及,海量学生行为日志为学业风险预警提供了数据基础,但高维时序行为序列的噪声干扰、异常值扰动以及“学术成功/失败”类别的严重不平衡,导致传统预测模型易忽略少数类样本,难以实现早期精准干预。现有方法多依赖静态统计特征,缺乏对行为动态演化的建模能力,且生成式模型在保持时序依赖性的同时提升数据多样性的研究尚存空白。为此,研究者创新性地将时序变分自编码器(TVAE)与生成对抗网络(GAN)深度融合,提出TVAE-GAN框架,旨在解决行为序列去噪、特征提取与合成生成的协同优化问题,推动学业预警从“事后补救”向“事前预防”转型。
关键技术方面,研究基于真实在线课程管理系统的匿名化日志构建学生行为序列数据集(涵盖162门课、16525名学生、12个学习单元的9维行为指标),利用LSTM-TVAE模块捕捉序列长期依赖并重构低噪潜在特征,结合LSTM-GAN生成符合真实分布的合成样本以平衡数据集,最终通过判别网络优化联合损失函数(含重构误差与对抗损失),实现端到端的学业风险分类。
研究结果部分,首先在模型架构设计上,TVAE编码器采用双层LSTM提取行为序列隐藏状态,通过重参数化技巧采样潜在变量z;解码器基于z和前一时刻隐状态hu-1递归重建序列,目标是最小化原始输入X与重建输出X′的均方误差(公式(3)-(5))。GAN生成器输入潜在变量z与先验分布采样的zp,输出生成序列G(z)与重建序列G(zp),判别器引入Leaky ReLU激活缓解“神经元死亡”,通过Sigmoid输出真伪概率,整体损失函数(公式(6)-(8))权衡重构能力与对抗训练稳定性。其次在实验验证中,模型针对5952名学业风险学生(成绩<60分)与10573名学业成功学生的失衡数据集,以Accuracy、Recall、Precision、F1为评估指标,结果显示TVAE-GAN在保留关键时序模式的同时有效扩充少数类样本,显著提升风险学生的召回率与F1值,克服了传统模型因数据倾斜导致的漏报问题。
结论与讨论指出,TVAE-GAN通过时序感知的特征重构与可控生成,突破了在线行为数据“高噪、异构、非平稳”的瓶颈,不仅为学业风险预警提供了可解释的动态特征表征,其生成的数据增强策略也为医疗健康领域的患者风险轨迹预测、慢性病管理模式优化提供了跨学科借鉴。发表于《Information》的此项工作,为复杂时序行为数据的深度挖掘与智能决策开辟了新路径。