《Data》:Identification of Latent Profiles and Determining Factors of Academic Stress in University Students: An Integrated Unsupervised–Supervised Machine Learning Approach
编辑推荐:
摘要:学业压力因其对心理健康、学业表现及生活质量的影响,是影响其大学生心理幸福感的主要挑战之一。本研究旨在通过整合无监督与有监督机器学习技术,分析与建模大学生学业压力相关的因素。研究对象为秘鲁圣马丁国立大学(Universidad Nacional de Sa
摘要:学业压力因其对心理健康、学业表现及生活质量的影响,是影响其大学生心理幸福感的主要挑战之一。本研究旨在通过整合无监督与有监督机器学习技术,分析与建模大学生学业压力相关的因素。研究对象为秘鲁圣马丁国立大学(Universidad Nacional de San Martín)605名学生,完成了经验证的心理测量量表,包括知觉压力量表(Perceived Stress Scale, PSS-10)、学习与 Study 策略调查表(Learning and Study Strategies Inventory, LASSI)、马斯勒奇倦怠量表–学生版(Maslach Burnout Inventory–Student Survey, MBI-SS)、匹兹堡睡眠质量指数(Pittsburgh Sleep Quality Index, PSQI)及学业应对量表(Academic Coping Scale, A-CEA)。第一阶段应用降维与聚类技术识别潜剖面(latent profiles),得到反映不同适应水平与心理脆弱性的四个组别。第二阶段评估八种有监督回归模型:线性回归(Linear Regression)、岭回归(Ridge)、套索回归(Lasso)、弹性网络(Elastic Net)、随机森林(Random Forest)、梯度提升(Gradient Boosting)、XGBoost及CatBoost。Lasso与Elastic Net表现几乎相当,在独立测试集上决定系数(R2)接近0.61。变量重要性分析显示,学业倦怠(academic burnout)、睡眠质量(sleep quality)及应对策略(coping strategies)是与知觉压力关联最主要的因素,情境变量相对重要性较低。综上,结果证实了学业压力的多维性质,并表明融合无监督与有监督方法有助于更全面地理解高校环境中的这一现象。
论文解读:《Identification of Latent Profiles and Determining Factors of Academic Stress in University Students: An Integrated Unsupervised–Supervised Machine Learning Approach》,发表于《Data》
研究背景与意义
学业压力(academic stress)是当代高等教育中突出的心理问题,已被证实影响大学生心理健康、动机、注意力及总体生活质量。学业环境的负荷(课业超载、考核压力、时间受限及成人角色过渡)是关键应激源,但压力体验具有异质性——个体及情境因素共同塑造学生对需求的感知与管理方式。学业压力本质为多因子交互作用,学业倦怠(academic burnout)、睡眠质量(sleep quality)、应对策略(coping strategies)及社会经济条件动态交织。传统统计学方法(如双变量分析或线性回归)难以捕捉多维语境下的复杂非线性关系。机器学习(machine learning, ML)可建模非线性关系、识别高维数据潜结构并建立具解释力的预测模型;无监督学习可经降维与聚类辨识潜剖面(latent profiles),有监督学习可预测压力水平并筛选关键因素。然而在拉丁美洲背景下,将二者整合于统一分析框架的研究仍较少。因此,研究人员开展此项研究,以秘鲁圣马丁国立大学本科生为样本,先通过无监督学习识别学生心理潜剖面,再通过有监督回归建模分析知觉压力(perceived stress)的相关预测因素,以期为高校学生心理福祉干预提供实证依据。
主要关键技术方法
研究人员采用观察性横断面设计,样本为秘鲁Universidad Nacional de San Martín的605名本科生(女51.7%,男48.3%;多数20–22岁,46.8%在大三及以上),完成PSS-10(知觉压力)、LASSI(学习策略)、MBI-SS(学业倦怠)、PSQI(睡眠质量)及A-CEA(学业应对)并收集社会人口学与情境变量。数据预处理包括:剔除缺失>40%的变量、剔除个体缺失>50%者(无样本被删)、按变量类型分别用KNN(k=5)/中位数/众数插补、排除PSQI中降低内部一致性的两个条目使Cronbach's α升至0.795,最终矩阵605×261变量。数据集按7:2:1划分为训练/验证/测试集以防数据泄露。无监督阶段:排除PSS-10条目及总分,对心理测量聚合分数与分量表标准化后,比较主成分分析(Principal Component Analysis, PCA)与均匀流形逼近与投影(Uniform Manifold Approximation and Projection, UMAP)降维效果,选定UMAP生成8维潜表示,在此基础上比较K-means与高斯混合模型(Gaussian Mixture Model, GMM)并结合肘部法则、贝叶斯信息准则(Bayesian Information Criterion, BIC)、赤池信息准则(Akaike Information Criterion, AIC)及轮廓系数(Silhouette coefficient)、戴维森堡丁指数(Davies–Bouldin index)、Calinski–Harabasz指数确定最佳聚类数,最终选定K-means k=4,由心理学专业人员结合各维度分布命名剖面,并用Kruskal–Wallis检验及Mann–Whitney U检验(Bonferroni校正)比较组间PSS-10得分差异。有监督阶段:以PSS-10总分为连续因变量(y),预测矩阵X_plus含心理测量聚合分数与分量表、情境变量及无监督阶段所得cluster_id,评估八种回归算法——Linear Regression、Ridge、Lasso、Elastic Net、Random Forest、Gradient Boosting、XGBoost、CatBoost,用Optuna进行超参数优化,Repeated 5-Fold Cross-Validation(10次重复)训练,验证集选最优超参,独立测试集评估泛化性能(R2、MAE)。变量重要性通过线性模型回归系数与树模型SHAP(SHapley Additive exPlanations)值加权投票获得,并比较单模型与集成(简单平均及性能加权平均)效果。
研究结果
4.1. Descriptive Statistics(描述性统计)
PSS-10均值20.19(SD=4.03),PSQI均值10.57(SD=3.55,高分代表差睡眠质量);Shapiro–Wilk检验所有心理变量均显著偏离正态分布(p<0.05),支持后续使用非参数统计方法。
4.2. Identification of Student Profiles Using Unsupervised Learning(基于无监督学习的学生剖面识别)
- •
4.2.1. Dimensionality Reduction(降维):PCA需16个主成分解释约90%方差;UMAP可信度(trustworthiness)在8维后趋于稳定,选定8维潜空间。
- •
4.2.2. Structural Comparison of Latent Spaces(潜空间结构比较):UMAP表征的Silhouette系数(0.396 vs. 0.149)、Calinski–Harabasz指数(411.14 vs. 88.15)优于PCA,Davies–Bouldin指数更低(0.97 vs. 2.16),选取UMAP作后续聚类输入。
- •
4.2.3. Algorithm Comparison and Cluster Number Estimation(算法与簇数估计):K-means肘部图拐点位于k=4;GMM的AIC/BIC最低点为k=7。
- •
4.2.4. Clustering Validation and Stability Analysis(聚类验证与稳定性分析):K-means(k=4) Silhouette=0.351、Calinski–Harabasz=343.52、Davies–Bouldin=1.035,均优于GMM(k=7);稳定性分析K-means平均调整兰德指数(Adjusted Rand Index, ARI)=0.945、共联值0.979,高于GMM,故确定K-means k=4为最终方案。
- •
4.2.5. Final Clustering Solution(最终聚类解):四簇人数分别为约159、122、187、137人,在UMAP空间呈部分分化区域。
- •
4.2.6. Cluster Characterization and Psychometric Profiles(簇特征与心理测量剖面):识别出四剖面——Cluster 2为低压力、良好睡眠和低倦怠的适应良好组;Cluster 3为中等水平的中间组;Clusters 0和1均为高压力、差睡眠、高倦怠的高痛苦组,但Cluster 0伴随更高经济压力与更少资源(情境脆弱性强),Cluster 1情境条件相对较好。四组PSS-10得分差异显著(Kruskal–Wallis H=219.64, p<0.001, ε2=0.363)。
4.3. Identification of Stress Predictors Using Supervised Models(利用有监督模型识别压力预测因子)
- •
4.3.1. Model Performance and Ranking(模型表现与排序):交叉验证R2范围0.54–0.58;Lasso(R2test=0.6098, MAE=2.0982)与Elastic Net(R2test=0.6092, MAE=2.0956)几乎等价且最稳定,Random Forest次之(R2=0.5994);测试集R2均落在交叉验证区间内,无过拟合迹象。
- •
4.3.2. Relevant Predictors of Perceived Stress(知觉压力相关重要预测变量):加权投票显示最重要预测因子依次为——无监督分析所得cluster_severity、应对策略(规划coping_planning与重新评价coping_reappraisal)、学业倦怠总分(mbi_total)及犬儒主义(mbi_cynicism)与耗竭(mbi_exhaustion)、PSQI总分(psqi_global)及组分、学习策略总分(lassi_total)及协助性帮助寻求(lassi_HII),辅以少量情境变量(如父亲/监护人就业状态)。说明学业压力预测需整合心理、睡眠、应对及情境多域信息。
- •
4.3.3. Comparison of Individual and Ensemble Models(单模型与集成模型比较):Lasso单模型略优于简单平均(R2=0.6019)与性能加权平均(R2=0.6029)集成,集成未带来额外增益。
讨论与结论翻译
讨论指出学业压力是心理、行为及情境变量汇聚的多维现象,学业倦怠、睡眠质量与应对策略的交互作用与既往文献一致;四剖面的识别证明压力分布非均匀,高压力两组仅在情境脆弱性上有差异,提示干预需考虑社会经济背景;Lasso与Elastic Net等正则化线性模型已能充分表征预测关系且便于变量选择,集成未超越单模型但结果一致;无监督阶段所得潜剖面变量进入有监督模型顶部预测因子,说明潜结构提供互补信息。
结论:大学生学业压力是多维度现象,学业倦怠、睡眠质量及应对策略对其有稳定解释贡献。无监督学习识别出四个异质剖面——两组高压力/差睡眠/高倦怠者(情境条件不同)、一组适应良好组及一组中间组——证实学业压力以特定心理测量配置组织而非均匀分布。有监督模型中Lasso与Elastic Net测试集R2近0.61,提供预测精度与统计稳定性间最佳平衡。融合无监督–有监督机器学习可同时刻画学生剖面并建立学业压力预测模型,为高校早期识别、预防及针对性支持策略设计提供有用证据。