《Mathematical and Computational Applications》:Distributional Coherence-Based Data Refinement for Early Detection in the Alzheimer’s Disease Spectrum Using SHAP-Guided Feature Selection
编辑推荐:
摘要:阿尔茨海默病(Alzheimer's Disease, AD)是认知障碍的主要类型。现有认知状态分类研究多直接应用各类机器学习(Machine Learning, ML)算法,通常假设患者特征在不同评估间具有一致性,未明确考虑主观评估引入的变异性。少数试
摘要:阿尔茨海默病(Alzheimer's Disease, AD)是认知障碍的主要类型。现有认知状态分类研究多直接应用各类机器学习(Machine Learning, ML)算法,通常假设患者特征在不同评估间具有一致性,未明确考虑主观评估引入的变异性。少数试图解决此类变异性的研究适用性仍受限。本研究提出一种分布一致性(Distributional Coherence)驱动的数据精炼方法以填补上述空白。首先采用SHAP(SHapley Additive exPlanations)引导的特征选择,随后剔除分布非典型记录——包括单次就诊且增大类内方差(Intra-Class Variance, ICV)、降低类间可分性的记录,以及多次就诊但纵向轨迹不一致的记录。该方法仅作用于训练数据,精炼后的训练数据输入ML算法。实验结果表明,剔除少量记录(1.285%)可轻微提升数据质量:Fisher得分与Cohen's f平均分别提升0.016和0.011,类间与类内均值分别改善0.012和0.004;此外,基于精炼训练数据的ML模型联合正确率(Joint Correctness Rate)最高提升7.1%,F1分数亦有提高。因此,所提方法为一种潜在的数据精炼策略,适用于描述正常认知(Normal Cognition, NC)、早期轻度认知损伤(Early Mild Cognitive Impairment, EMCI)及晚期轻度认知损伤(Late Mild Cognitive Impairment, LMCI)的纵向受限认知损伤谱系数据。
论文解读:基于分布一致性数据精炼与SHAP引导特征选择的阿尔茨海默病谱系早期检测数据优化研究
一、研究背景与综述
阿尔茨海默病(Alzheimer's Disease, AD)是最常见的痴呆类型,疾病进程依次为早期轻度认知损伤(Early Mild Cognitive Impairment, EMCI)、晚期轻度认知损伤(Late Mild Cognitive Impairment, LMCI)及AD阶段。目前尚无药物逆转脑损伤,故EMCI阶段的早期检测至关重要。现有AD机器学习(Machine Learning, ML)预测研究多采用高维多模态数据,面临两大瓶颈:一是特征冗余,需有效筛选对疾病分期具贡献的特征;二是纵向AD数据集存在主观评估导致的测量误差及受试者依赖性波动,致使单次就诊记录呈类内离群、多次就诊记录纵向轨迹(Longitudinal Trajectory)与同类别稳定预期不符,增大类内方差(Intra-Class Variance, ICV)、模糊类间边界,现有去噪研究多局限于单一模态(如MRI)或仅处理多访视记录。为此,研究人员开展本数据驱动研究,在ADNI(Alzheimer's Disease Neuroimaging Initiative)数据集上提出融合SHAP(SHapley Additive exPlanations)特征选择与分布一致性(Distributional Coherence)判定的训练集精炼框架,验证剔除分布非典型记录对数据统计质量及ML分类性能的提升作用。本文发表于《Mathematical and Computational Applications》。
二、主要关键技术方法
研究人员选用ADNI全阶段(ADNI-1至ADNI-4)表格型纵向数据,保留MMSE、CDR、FAQ、GDS认知行为量表及3T MRI结构化测量,删除缺失值与人口统计学无关变量,最终3827条记录、388特征(含元数据),标签为NC/EMCI/LMCI三分类。按患者层面80:20分层切分防数据泄露,多数类欠采样平衡训练集至1479条。主要技术步骤为:(1)以随机森林拟合训练集,计算SHAP值并按累计贡献拐点选Top-K特征;(2)将训练患者分为单次访视、两次访视、多次访视组,对同标签组操作——单次访视者计算各记录ICV(各特征距同类质心的平方距离),超P=97.5百分位阈值者为候选;两次及以上访视者计算纵向一致性指数(Longitudinal Consistency Index, LCI=余弦相似度×时间衰减因子),低于同类P=2.5百分位阈值且多数访视不达标者标记;(3)对候选记录计算至异类最近质心距离,若判别边界为负(即较接近异类而非自身类别)则判定为分布非典型记录予以剔除,保留剩余精炼训练集供ML建模。
三、研究结果
5.1. Top-K Feature Selection and Analysis of Intra-Class Variance and Longitudinal Consistency Index
通过SHAP累积贡献曲线确定特征保留区间,结合RF交叉验证确认Top-60特征(占15.9%)累积SHAP贡献0.712为最优K。分别计算三类(NC/EMCI/LMCI)单访组ICV阈值(ηNC=0.012, ηEMCI=0.189, ηLMCI=0.974)及多访组LCI阈值(γNC=0.471, γEMCI=0.142, γLMCI=0.323),发现NC单访ICV显著低于MCI组(提示NC生物标志物更稳定),EMCI多访LCI最低(提示EMCI症状谱纵向波动大)。
5.2. Data Statistical Evaluation
设定P=0.025剔除1.285%训练记录后,60个选中特征上Fisher得分平均升0.016±0.015(FAQFORM最大),类间方差(Inter-Class Variance)均升0.012±0.007(MRI.ST24TA最大),类内方差均降0.004±0.007(MRI.ST30SV最大),Cohen's f均升0.011±0.008(FAQFORM最大)。表明精炼数据类间距增大、类内离散度减小,统计区分度增强。
5.3. Cross-Model Predictive Stability Analysis
随机森林(Random Forest, RF)与神经网络(Neural Network, NN)各10次试验:RF宏F1由84.035%±0.600升至85.279%±0.458;NN宏F1由75.897%±1.304升至80.400%±0.707;两模型联合正确率(Joint Correctness Rate)由69.9%升至74.9%(+7.1%)。证明精炼数据提升NN抗噪性及双模型共识预测稳定性。
5.4. Effect of Percentile and Splitting the Dataset on the Performance of the Proposed Method
P取0.025–0.35区间NN宏F1均较基线提升4.5%–5.5%,剔除记录数与P近似线性相关,方法对P不敏感;五种不同随机切分下精炼数据均稳定优于原始数据(Wilcoxon符号秩检验p=0.0625,未达显著但有正向趋势)。
四、讨论与结论翻译
讨论指出SHAP特征选择有效降维去噪,ICV与LCI阈值反映NC稳定性高及EMCI纵向波动大特性;精炼虽只删极少量记录,但统计指标呈期望方向变化,证实抑制分布非典型记录可强化类结构。P值与数据切分敏感性低说明方法鲁棒,但局限含P未关联具体ML模型、未测试其他欠采样或缺失值填补策略、未扩展至标签变化访视及含AD确诊阶段、未外部医学专家校验及独立队列验证。
研究结论为:研究人员提出并验证了基于SHAP特征选择与分布一致性判定的训练集精炼法,可识别并剔除单次访视类内离群及同类多访视纵向轨迹不一致且具负判别边界的记录。精炼后数据类间距增大、类内方差减小,使RF与NN分类性能及联合正确率提升,对P设置与随机切分不敏感,为AD谱系表格纵向数据提供了一种可作为常规预处理补充的数据中心化(Data-Centric)精炼策略。