《Journal of Affective Disorders Reports》:Digital Phenotyping of Perinatal Mental Health: A Systematic Review of Machine Learning and Wearable Sensor Approaches
编辑推荐:
妊娠期和产后阶段以显著的心理社会转变和升高的心理健康脆弱性为特征。当心理健康需求未得到满足时,可表现为围产期情绪和焦虑障碍(perinatal mood and anxiety disorders, PMADs),约影响八分之一的女性,并对母婴造成严重后果。虽
妊娠期和产后阶段以显著的心理社会转变和升高的心理健康脆弱性为特征。当心理健康需求未得到满足时,可表现为围产期情绪和焦虑障碍(perinatal mood and anxiety disorders, PMADs),约影响八分之一的女性,并对母婴造成严重后果。虽然应用于可穿戴数据的机器学习(machine learning, ML)在心理健康检测方面显示出前景,但其在围产期人群中的应用仍探索不足且方法学上有限。研究人员进行了一项系统文献综述,聚焦于利用可穿戴衍生数据检测围产期心理健康状态的ML和人工智能(artificial intelligence, AI)应用研究。研究人员检索了PubMed、Scopus、ACM、IEEE和ScienceDirect数据库。研究人员筛选了共484条记录,在摘要审查和去重后排除472条。研究人员评估了12篇全文文章,最终纳入11项研究。基于可穿戴衍生的生理和行为特征训练的ML模型在分类或预测围产期心理健康状态(如压力、焦虑、产后抑郁、孤独感)方面表现出中等至较强的预测性能,大多数AUC值超过0.693。心率(heart rate, HR)和心率变异性(heart rate variability, HRV)衍生特征是被纳入研究中最一致研究且频繁报告的重要预测因子,随机森林(Random Forest)和支持向量机(Support Vector Machine)是最常应用的算法。然而,大多数研究依赖于内部验证,并发现了显著的方法学局限性:样本同质化、非验证的结果测量以及有限的现实世界测试。尽管基于可穿戴的ML在围产期心理健康检测方面显示出前景,但证据基础仍处于早期阶段,在临床实施前必须进行严格的验证和可行性研究。
**1. 引言**
妊娠期和产后阶段是人生中最显著的心理社会转变之一,伴随着深刻的身体、情感和社会变化。当心理健康需求因监测和检测不足而未被满足时,后果可能严重。围产期心理健康状态,包括围产期情绪和焦虑障碍(perinatal mood and anxiety disorders, PMADs)、产后抑郁(postpartum depression, PPD)、焦虑和精神病,是美国妊娠和分娩最常见的并发症。尽管心理健康状况是妊娠相关可预防死亡的最常报告原因,但美国在高收入国家中产妇死亡率最高。对于11-17%的女性,这些状况可能导致母亲长期健康问题、儿童认知和社会发育迟缓,以及仅在美国每年累计估计142亿美元的社会成本。
**2. 方法**
本综述纳入原始研究,这些研究探索利用机器学习技术基于可穿戴设备(如智能手表)收集的数据集预测母亲心理健康结局(如压力、焦虑、孤独感和抑郁)的可能性。研究人员根据PRISMA 2020指南于2025年10月15日进行系统文献综述,检索了五个数据库:IEEE Xplore、PubMed、ScienceDirect、Scopus和ACM,并辅以手动检索。纳入标准包括:通过可穿戴设备被动收集数据;数据为人类生成;采用机器学习(ML)算法检测一种或多种围产期心理健康状态或相关症状;研究对象为妊娠期或产后女性。排除标准包括:针对未成年人;使用基因组数据;未采用ML算法;以及综述、书籍等。两名作者独立筛选标题和摘要(Cohen’s kappa κ=0.694),最终纳入11项研究。第一作者使用预测模型偏倚风险评估工具(Prediction model Risk Of Bias ASsessment Tool, PROBAST)评估偏倚风险和适用性。
**3. 结果**
**3.1. RQ1:哪些可穿戴衍生的生理和行为特征已被用于检测或预测围产期心理健康?**
11项研究针对多种围产期心理健康结局,使用了心率(HR)、活动数据和睡眠指标等数字生物标志物。五项研究预测围产期压力,三项研究关注抑郁识别,一项检测焦虑,一项关注母亲社会孤独感,一项关注婴儿忧郁,一项关注四种情绪状态。八项研究使用自评量表(如PSS-4、EPDS、STAI),一项还使用DSM-5临床评估。七项研究采用市售可穿戴设备(如Garmin、Empatica E4、Fitbit、三星智能手表),一项使用临床设备,两项使用研究级设备。研究样本量从13到1503不等,但部分研究缺乏关键方法学细节。
**3.1.1. 心脏和HRV特征占主导**
在所有研究中,心率(HR)和心率变异性(HRV)特征是最一致使用的预测因子,出现在每项研究中,无论结局如何(产后抑郁PPD、压力、焦虑、孤独感)。具体特征包括HR、HRV、血容量脉冲(BVP)、心跳间期、连续差均方根(RMSSD)、NN间期标准差(SDNN)等。例如,Hurwitz等发现平均HR、HR第一四分位数和最小HR是产后抑郁的重要预测因子;Sarhaddi等发现HRV是检测母亲社会孤独感的最重要客观生理参数之一。
**3.1.2. 体力活动和睡眠指标的次要作用**
体力活动和睡眠衍生特征常被纳入,但与HRV指标相比,较少被确定为模型性能的主要驱动因素。四项研究分析了活动数据(如步数、距离、活动强度),三项研究纳入睡眠指标(如总睡眠时间、入睡后醒来时间)。Sarhaddi等确定体力活动和HRV共同是孤独感检测中最重要的客观生理参数,而Hurwitz等发现基础代谢率(BMR)消耗热量是产后抑郁PPD的最显著单一预测因子。
**3.1.3. 多模态和较少探索的生物标志物**
几项研究整合了多模态或非传统的生物标志物。Hurwitz等纳入可穿戴活动追踪衍生的热量消耗,其作为最高排名特征。Cao等独特地整合了唾液皮质醇与HRV,发现皮质醇是最强贡献特征。Ng等使用研究级心电图(ECG)传感器收集HRV生物特征并结合自我报告生态瞬时评估(EMA)。Bao等整合了血容量脉冲(BVP)、皮肤温度和心跳间期信号。Gopalakrishnan等整合了皮肤电活动(EDA)以分解为12个频段进行特征提取。
**3.2. RQ2:采用了哪些机器学习方法,性能如何?**
**3.2.1. 传统监督ML模型占主导**
支持向量机(SVM)、随机森林(RF)和梯度提升(GB)是最常实施的方法。SVM在七项研究中使用,RF和K近邻(kNN)各在六项中使用,GB在五项中使用。Cao等发现AdaBoost在皮质醇存在下准确率最高(76.51%)。Ng等发现RF在预测次日生理压力和感知压力方面表现更优。Sarhaddi等发现GB在孤独感检测中达到加权F1为0.897和AUC为0.896。
**3.2.2. 深度学习、混合和元学习方法的有限使用**
仅三项研究使用了深度学习和混合架构。Mehta等使用带有微调的一维卷积神经网络(1D-CNN with fine-tuning, DLFT)进行二元压力分类,F1为76.50%。Jose等提出上下文感知自适应元学习(CAML)框架,组合长短期记忆网络(LSTM)和卷积神经网络(CNN),报告准确率为98.72%。Gopalakrishnan等采用基于堆叠的集成深度学习(EBDL)模型,报告四类抑郁严重度分类准确率为98.37%。
**3.2.3. 模型性能和指标异质性**
报告的性能普遍中等至较高,所有研究准确率或AUC高于67.3%。但比较受限于异质的评估指标和验证程序。最高报告准确率的两项研究(98.7%和97.9%)存在方法学问题,如缺乏关键细节或标签错误。
**3.3. RQ3:研究在多大程度上使用了外部验证、纵向数据或临床有意义的基准?**
外部验证非常有限,所有研究均依赖内部交叉验证或训练-测试分割。一项研究使用了部分外部验证但样本极小。纵向数据收集差异大:四项研究在扩展期内收集生态瞬时数据,而四项在模拟或诊所内进行有限时长的数据采集。临床验证参考标准使用不足:多项研究使用替代或衍生标签(如抗抑郁药处方、算法衍生标签),而非临床诊断;部分研究在主动分娩期间使用PHQ-9,可能不准确。
**3.4. 偏倚风险和适用性评估**
基于PROBAST评估,零项研究为低偏倚风险,七项为低至中偏倚风险,四项为高偏倚风险。四项研究为低适用性担忧,四项为高适用性担忧,三项为低至中适用性担忧。
**4. 讨论**
**4.1. 被动围产期心理健康监测的可行性已建立但未验证**
11项研究显示可穿戴衍生的生理和行为数据在检测围产期心理健康结局方面具有前景。HR和HRV衍生特征是最一致使用的预测因子,随机森林(RF)是最常报告的模型之一(AUC达0.85)。但特征集、算法和结局定义的异质性和缺乏独立队列复制导致难以得出可靠结论。少数研究在家庭环境中捕捉信号,但仅限于动机研究队列。
**4.2. 方法学限制排除了关于普适性的结论**
尽管性能指标鼓舞人心,但证据基础不应解释为临床部署准备。仅一项研究在独立队列上外部验证模型(Mehta等),但验证样本极小(n=18)且不具代表性。其他所有研究依赖内部验证,产生乐观估计。最高报告准确率的两项研究可疑。样本量小导致统计效力不足和过拟合风险。结局验证高度异质且常未经验证,使用替代标签。未评估临床实施结局。偏倚风险评估证实这些关切。
**4.3. 从可行性到实践:未来研究的实施优先事项**
**4.3.1. 早期检测本身不足,需可及护理路径**
早期检测假设能及时干预,但存在围产期心理健康专家短缺的结构性障碍。未来研究应直接检查第三方应用程序与电子健康记录(EHR)系统接口对护理过程和健康结局的影响。实施应共同设计以解决转诊路径,并评估超越模型性能的结局。
**4.3.2. 现实世界依从性是实施的关键且研究不足的障碍**
尽管可穿戴设备拥有率高,但依从性和持续参与是数字健康干预的重大障碍。本综述研究通常在动机研究队列中有高完成率,但在现实环境中脱落可能更高。未来研究应评估长期依从性,识别脱离预测因子,并探索适应设计以维持间歇性数据的预测性能。
**4.3.3. 抽样缺口和传感器层面偏倚破坏普适性**
多个队列缺乏人口学多样性。感应技术本身可能引入测量偏倚:基于光电容积描记法(PPG)的心率估计随肤色表现变异,但无研究评估按肤色分层的算法准确性或针对其人群验证设备性能。不评估设备在多样化人群中的性能可能加剧健康公平问题。
**4.3.4. 被动数据收集引发未解决的知情同意、所有权和问责问题**
数据所有权、知情同意和隐私问题在被动收集心理健康信息时尤为突出。需解决商业平台对预测输出的权利、临床输出形式以及系统失败时的责任问题。这些问题超出当前文献范围,但必须在部署前通过患者、临床医生和政策制定者参与解决。
**5. 局限性**
本综述未前瞻性注册方案,且偏倚评估由第一作者单独进行,可能引入主观偏倚。纳入研究数量较少(N=11),且对可穿戴工具与电子病历整合的关注有限。尽管如此,大多数研究发表于近十年,显示领域快速演进。
**6. 结论**
研究结果表明可穿戴设备收集的数据作为机器学习输入在检测围产期心理健康状态方面有前景,心率变异性(HRV)是最一致的信号。然而证据基础仍处于可行性和早期模型开发阶段。预测模型主要为中至高偏倚风险,无研究实现低偏倚风险。纳入研究依赖内部验证、样本小而同质、结局测量常未经验证或基于替代。推进该领域需在多样化代表性人群中进行外部验证模型、标准化报告实践以及前瞻性评估检测转化为临床获益。