个性化与群体水平语音模型在多维心理健康预测中的比较研究

《Frontiers in Digital Health》：Personalized vs. population-based speech models for multi-dimensional mental health prediction

【字体：大中小】 时间：2026年06月09日 来源：Frontiers in Digital Health 3.8

编辑推荐：

　　引言：精神障碍如抑郁症、焦虑症和压力（Stress）在年轻成人中日益普遍。传统评估依赖自评问卷和临床访谈，限制了可扩展性。基于语音的机器学习模型提供了一种可扩展且非侵入性的替代方案；然而群体水平（Population-level）模型难以区分障碍相关信号与说话

引言：精神障碍如抑郁症、焦虑症和压力（Stress）在年轻成人中日益普遍。传统评估依赖自评问卷和临床访谈，限制了可扩展性。基于语音的机器学习模型提供了一种可扩展且非侵入性的替代方案；然而群体水平（Population-level）模型难以区分障碍相关信号与说话人特异性特征，降低了个体预测精度。方法：研究人员提出一种混合框架（Hybrid Framework），结合群体水平建模与增量个体特定自适应（Individual-specific Adaptation）以改进个性化心理健康预测。该方法使用纵向YouthDASS数据集进行评估，该数据集包含来自18–30岁个体长达两个月的1000余条语音样本，以DASS-21量表标注抑郁、焦虑和压力严重度得分。多种机器学习模型在群体仅建、个体仅建及混合建模设置下接受探索与评估，其中一维卷积神经网络（1D CNN）表现最佳。结果：混合方法在三种心理健康状态下均优于群体水平模型，抑郁、焦虑、压力的个体水平均方根误差（RMSE）分别降至6.95、7.15和4.95（DASS-21分值）。相比之下，仅个体模型在不同障碍间表现不一。讨论：结果表明，整合群体知识与个体自适应比单独任一种方法更好地平衡了泛化性与个性化。所提框架支持可扩展个性化语音心理健康监测系统的发展，并突显了自适应机器学习方法在纵向心理健康评估中的潜力。

论文解读：《Personalized vs. population-based speech models for multi-dimensional mental health prediction》——发表于《Frontiers in Digital Health》

一、研究背景与立题依据

抑郁症（Depression）、焦虑症（Anxiety）和应激/压力（Stress，合称DAS）在青少年及年轻成人中高发且常共病。传统临床诊断依赖自评量表（如DASS-21）和临床访谈，资源密集且难以及时捕捉症状波动。语音已被证实含丰富的情感与病理生理信息，是基于声学特征的非侵入性生物标志物（Speech Biomarker）候选。然而，已有群体水平回归模型受限于跨被试泛化能力差——与抑郁相关的声学特征（如基频、抖动等）常与说话人身份特征重叠，导致模型倾向预测均值而忽视个体差异。此外，既往工作多聚焦二分类检测而非连续严重度回归估计，且少有研究系统比较群体模型、个体专属模型及二者结合的混合模型（Hybrid Model）在DAS多维连续评分预测中的表现。因此，研究人员开展此项研究，旨在验证个性化自适应能否提升语音回归模型对DAS严重度的预测精度。

二、关键技术方法与数据来源

研究人员采集并构建纵向语料库YouthDASS：招募墨西哥与加拿大18–30岁受试者40人（最终纳入抑郁n=19、焦虑n=15、压力n=17），通过Android应用每3天收集引导朗读（"Please call Stella"）与自由叙述语音各一段，同步完成DASS-21量表评分，共获得英/西语语音样本1049条（平均每人约26条，时长23–67秒）。音频经Noisereduce降噪及RMS幅度归一化至-20 dBFS。提取两类特征：① eGeMAPS（Geneva Minimalistic Acoustic Parameter Set，88维传统声学低层描述符及其统计量）；② VGG-19预训练网络对语谱图提取的4096维Deep Spectrum特征经mRMR（Minimum Redundancy Maximum Relevance）降维至512维。特征分别做Z-score（eGeMAPS）或Min-Max（VGG-19）标准化防数据泄露。比较三种建模策略：(1) 群体模型（Population Model）：留一被试交叉验证（LOSO CV）；(2) 个体专属模型（Individual-Specific Model）：被试内3折交叉验证；(3) 混合模型（Hybrid Model）：先用群体数据预训练，再冻结卷积层仅微调全连接层（CNN）或追加个体专属树（Random Forest, RF），用被试部分样本微调后预测剩余折。采用随机森林回归（RF）与一维卷积神经网络（1D CNN，输入为mRMR筛选后的512维VGG-19特征向量）两种基模型，以RMSE和决定系数（R²）为评价指标，统计检验采用Shapiro–Wilk正态性检验后行配对t检验或Wilcoxon符号秩检验，Bonferroni校正控制族错误率（α=0.0167）。

三、研究结果

3.1 Do personalized models perform better than population models in predicting depression, anxiety and stress?

混合模型在三种障碍上RMSE最低、R²最高。以CNN为例，抑郁混合模型RMSE=6.95±2.91（群体模型8.56±3.81，个体模型7.69±3.47）；压力与焦虑亦呈相同趋势。群体水平模型R²均为负值（-0.14至-0.43），说明其差于均值预测器，主因数据集>70%样本处于健康范围致模型偏向预测均值、低估高严重度。个体专属模型多数获正R²（焦虑最高达0.21），能捕捉个体内变异。混合CNN对抑郁(R²=0.12)、压力(R²=0.19)、焦虑(R²=0.18 tuned RF)取得最高R²，统计检验表明混合模型较群体模型全面显著改善（p≤0.0167）；较个体模型，混合CNN在抑郁(p=0.0116)和焦虑(p=0.0040)显著更优，RF混合与个体模型无显著差异。

3.2 How do different model personalization approaches compare?

CNN与调参RF在各设置下RMSE大体相当。唯一显著差异见于焦虑的个体专属设置：CNN显著优于RF（p=0.0067，Bonferroni校正后），提示CNN可能更好捕获焦虑相关的个体语音模式；抑郁与压力二者无统计学差异。

3.3 How effective are personalized models in predicting depression, anxiety and stress?

个体水平RMSE箱线图显示混合模型中位RMSE更低，波动更小。焦虑预测RMSE范围通常低于抑郁与压力。混合CNN较群体及个体CNN表现更稳定，与R²趋势一致。

四、讨论与结论总结（翻译浓缩）

本研究证明，融合群体水平泛化知识与个体专属自适应的混合个性化语音回归模型，能以单一非侵入模态准确估计DAS连续严重度，且在计算效率上支持轻量级微调部署，适用于生态瞬时干预（Ecological Momentary Interventions, EMIs）与数字化心理健康监测。相较纯群体模型，混合方法显著降低RMSE并提升R²；相较纯个体模型，混合CNN进一步改善抑郁与焦虑预测，验证了个性化增益。局限包括样本量偏小、需足量个体初采数据（未来可用Few-shot或迁移学习弥补）、未显式建模语种差异、DAS得分呈健康范围偏态分布可能弱化高严重度灵敏度。未来方向含引入多模态（面部、生理信号）及跨语言均衡验证。

综上，研究人员得出结论：将群体预训练与个体微调相结合的混合个性化建模范式，较单纯群体或单纯个体建模更能平衡泛化能力与个体敏感性，基于语音的连续DAS严重度回归预测具备临床前可行性，为可扩展个性化数字精神健康系统提供了实证基础。

热点排行