《Frontiers in Public Health》:Accelerometry and dual-scale neighborhood indicators for screening of MoCA-defined cognitive impairment: an interpretable machine-learning study
编辑推荐:
摘要背景:在社区层面识别可能从确认性认知评估中获益的老年人,受到资源有限以及单一领域筛查工具准确性有限的制约。
目的:本研究旨在构建并进行内部验证一种可解释的预测模型,用于预测MoCA界定的认知功能受损。该模型整合了加速度计(accelerometry)测量
摘要背景:在社区层面识别可能从确认性认知评估中获益的老年人,受到资源有限以及单一领域筛查工具准确性有限的制约。
目的:本研究旨在构建并进行内部验证一种可解释的预测模型,用于预测MoCA界定的认知功能受损。该模型整合了加速度计(accelerometry)测量数据与双尺度(500?m和800?m)建成环境指标,并评估其校准度、临床效用及亚组表现。研究目标在于支持社区筛查优先级排序,而非进行病因学推断或临床诊断。
方法:研究人员分析了来自中国南京社区居住老年人的横断面样本(n?=?421;2024年3月至12月)。预测变量包括基于加速度计导出的活动/久坐指标、人体测量学指标、人口统计学变量,以及在500?m和800?m网络缓冲区内计算的基于地理信息系统(GIS)的社区可达性和土地利用测度。认知功能受损定义为MoCA <26。候选算法包括正则化逻辑回归、k近邻、支持向量机、随机森林和梯度提升,采用分层3折交叉验证进行训练,并额外设置分层70/30留出测试集用于内部验证。研究报告了ROC AUC、精确率-召回率曲线下面积、Brier评分、校准斜率/截距、决策曲线分析、基于TreeSHAP的可解释性分析,以及针对关键亚组的探索性均等机会(equalized-odds)诊断。
结果:树模型取得了最佳总体表现。在留出测试集中,随机森林表现出较高的区分能力且具有可接受的校准度(AUC 0.95,95% CI 0.91–1.00;Brier 0.088);而梯度提升和支持向量机的AUC约为0.90,其中梯度提升具有更低的Brier评分(0.071)。决策曲线分析表明,在临床上合理的风险阈值范围内,相较于“全部干预”和“全部不干预”策略,模型具有正向净获益。可解释性分析一致提示,中高强度身体活动(MVPA)、久坐时间、年龄、中心性脂肪堆积以及社区公共交通可达性是具有影响力的预测因子。亚组分析显示,各亚组间区分能力总体可比,但存在小到中等程度的均等机会差距。
结论:将加速度计(accelerometry)数据与社区指标相结合,可能有助于在社区环境中对MoCA界定的认知功能受损进行经校准、面向决策的分诊支持。该模型旨在用于筛查支持,而非因果解释或替代诊断,且在实施前仍需开展外部验证。
该论文发表于《Frontiers in Public Health》,聚焦于老龄化城市社区中老年认知功能受损的早期筛查问题。研究背景在于,晚年期认知功能受损在快速老龄化城市中较为常见,且常常先于痴呆发生,但在常规社区卫生实践中往往未被充分识别。尽管全面神经心理评估能够提供较准确的认知判断,但在基层社区大规模实施时面临人力、时间与经费受限等现实障碍。因此,如何利用可扩展、低侵入性、具有较好预测性能的数据驱动工具,对需要进一步确认性认知评估的老年人进行优先排序,成为具有公共卫生意义的重要课题。既有研究多关注个体层面危险因素,但较少将身体活动、体成分和社区建成环境等多维度信息整合起来。研究人员因此开展本研究,尝试将客观加速度计数据、人体测量指标和双尺度社区建成环境指标纳入同一预测框架,以形成一种面向社区筛查流程优化、而非病因推断或临床诊断替代的可解释机器学习模型。
从研究设计看,本研究为横断面社区研究,纳入2024年3月至12月中国南京市社区独立居住老年人421例。研究人员以MoCA <26作为认知功能受损的筛查定义,在排除既往痴呆诊断、近期急性卒中、严重精神障碍及不能完成加速度计佩戴或认知测评者后,构建候选预测变量集合。研究结论表明,整合加速度计来源活动特征和社区建成环境指标的树模型,在内部验证中能够较好地区分MoCA界定的认知功能受损个体,并在校准、决策净获益和解释性方面显示出应用潜力。论文的重要意义在于,提出了一种面向社区筛查支持的、兼顾判别性能、概率校准、临床净获益和公平性诊断的预测框架,为有限资源下老年认知筛查优先级管理提供了实证依据。
在技术方法方面,研究人员采用多阶段分层整群抽样,从南京市15个社区招募样本;使用三轴加速度计连续7天采集身体活动数据,提取久坐时间、轻体力活动和中高强度身体活动(MVPA,moderate-to-vigorous physical activity)等指标;基于地理信息系统(GIS,geographic information system)构建500?m与800?m步行网络缓冲区,计算道路交叉口密度、土地利用混合度、公共交通站点密度、绿地比例和设施密度等环境变量;通过L1惩罚逻辑回归结合稳定性选择进行特征筛减;采用分层3折交叉验证和70/30留出测试集进行内部验证,并结合TreeSHAP解释模型输出,同时进行决策曲线分析和探索性公平性评估。
在研究结果部分,论文依次报告了以下内容。
3.1 Participant flow and baseline characteristics
研究人员在质量控制后纳入421名社区老年人,并按MoCA <26进行分层后将样本划分为训练集(n?=?295)和验证集(n?=?126)。训练集与验证集在年龄、体质指数(BMI,body mass index)、MoCA评分、MVPA、久坐时间及多数环境指标上的标准化均值差(SMD,standardized mean difference)总体较小,提示两部分样本基线可比。该结果说明后续内部验证具备相对稳定的样本基础。
3.2 Model development and cross-validation performance
在分层3折交叉验证中,各候选算法均表现出一定稳定性,但树模型整体优于传统模型。随机森林(RF,random forest)取得最高ROC AUC 0.976,PR-AUC 0.987,Brier评分0.076;梯度提升机(GBM,gradient boosting machine)也表现突出,ROC AUC为0.959,且Brier评分0.070,为交叉验证中最低。支持向量机(SVM,support vector machine)次之,逻辑回归(LR,logistic regression)和k近邻(KNN,k-nearest neighbors)表现较弱。该部分结果说明,多维行为与环境特征之间可能存在非线性关系,树模型在捕捉复杂模式方面更具优势。
3.3 Internal test-set validation: discrimination and calibration
在固定70/30分层留出验证中,模型排序与交叉验证结果基本一致。随机森林在验证集中的AUC达到0.953,95% CI为0.910–0.996,显示出最强区分能力;GBM和SVM的AUC分别为0.898和0.904。就校准而言,GBM与SVM更接近理想状态,随机森林虽有较低Brier评分(0.088),但校准斜率为2.08,提示其在高预测风险区间存在概率过度极端化,即过度自信现象。作者据此指出,若用于实际部署,概率校准可能是必要步骤。该结果强调,筛查模型不能仅看AUC,还需同时考察预测概率与真实风险的一致性。
3.4 Clinical utility: decision curve analysis
决策曲线分析(DCA,decision curve analysis)显示,在以观察患病率为中心的合理阈值范围内,多数较优模型相对于“全部转诊”和“全部不转诊”策略均可获得正向净获益。与逻辑回归相比,非线性模型在多个阈值点上表现出更高临床效用。该结果表明,这些模型可望用于社区筛查中的后续评估优先级排序,帮助在漏诊与过度转诊之间进行更透明的权衡。
3.5 Reclassification and parsimony
相较于逻辑回归基线模型,SVM和GBM在无类别净重分类改善(cfNRI,category-free net reclassification improvement)方面呈现正向提升,其中GBM的cfNRI为0.899,SVM为0.719,提示这两类模型在重新区分事件与非事件个体时具有附加价值;KNN则使重分类表现下降。另一方面,研究人员还构建了稀疏逻辑回归模型,该模型保留21个预测变量,在显著降低复杂度的同时,其AUC 0.789、PR-AUC 0.843,与全模型逻辑回归相近。这说明在追求可解释性和简约性时,仍可获得尚可的预测表现,但整体仍逊于树模型。
3.6 Subgroup performance and fairness evaluation
研究人员以随机森林作为主模型,对性别、年龄分层和教育水平亚组进行了探索性分析。结果显示,男性与女性亚组的AUC分别为0.942和0.975,提示性别间区分能力总体可比;不同年龄和教育层次中也观察到一定差异,但部分小样本亚组因不稳定而未报告。均等机会差异分析显示,性别相关差距较小,而年龄和教育相关差距相对更大,不过作者指出这在一定程度上可能受样本量不足和类别不平衡影响。通过调整亚组阈值可减少部分差距,但会带来轻度准确性损失。该结果说明,面向人群部署的筛查模型除关注效能外,还需持续监测公平性。
3.7 Explainability and feature effects
基于TreeSHAP的全局解释结果表明,对随机森林预测贡献最大的变量主要包括MVPA、久坐时间、年龄、中心性肥胖相关指标以及社区交通可达性。偏依赖图(PDP,partial dependence plot)和累积局部效应图(ALE,accumulated local effects)进一步展示了这些变量与预测风险之间的方向性关系。总体上,更高MVPA和更低久坐时间与更低预测风险相关,较高年龄和中心性脂肪堆积与更高预测风险相关,而公共交通可达性等建成环境变量为模型提供了超越个体特征之外的补充信息。该结果支持研究假设,即客观活动行为与环境语境联合建模有助于提升社区层面的风险分层能力。
3.8 Sensitivity and robustness analyses
敏感性分析表明,主要发现具有稳健性。无论将MoCA截点上下调整1分,还是将加速度计有效佩戴日阈值由≥10?h改为≥8?h,或采用欧氏800?m缓冲区替代街道网络缓冲区重新计算环境指标,以及使用其他特征选择方法,模型整体性能模式未发生实质性变化。该结果增强了研究结论的可信度,表明模型性能并不依赖于单一参数设定。
在讨论部分,研究人员指出,本研究的核心贡献不在于解释因果机制,而在于为社区筛查提供经内部验证的风险分层工具。树模型较传统线性模型显示出更优表现,说明认知功能受损的筛查信号可能分布于活动行为、体成分和建成环境等多个维度,且存在非线性与交互作用。作者强调,对筛查用途而言,单纯关注判别能力并不足够,校准度、净获益和公平性同样关键。决策曲线分析提示模型可用于辅助安排进一步认知评估,从而在资源受限的社区卫生场景下提升筛查效率。解释性分析则增强了模型面向社区利益相关者应用时的透明度。与此同时,作者明确指出若干局限:横断面设计无法建立活动或环境暴露与认知结局之间的因果关系;样本来自有限数量社区,个体层面切分可能带来偏乐观估计;GIS指标可能存在测量误差或时间不匹配;内部验证不能替代外部验证与真实世界影响评估。因此,未来需在独立城市和队列中开展外部验证,采用尊重社区聚类结构的重抽样设计,并进一步评估模型部署后的收益—风险权衡。
研究结论部分可译为:一项经过内部验证、具有可解释性的模型,若整合基于加速度计导出的身体活动信息与社区建成环境指标,可用于支持社区居住老年人MoCA界定认知功能受损的经校准风险分层。这些结果旨在服务于筛查支持,而非因果推断;在常规应用之前,仍需开展外部验证和前瞻性评估。