《Sleep and Breathing》:Development and internal validation of a prediction model for sleep apnea syndrome treated with continuous positive airway pressure based on claims and health checkup data linked to personal health records
编辑推荐:
目的:在一般人群中开发并验证一种持续气道正压通气(CPAP)治疗的睡眠呼吸暂停综合征(SAS)的预测模型。方法:研究人员利用JMDC公司持有的理赔(claims)数据与体检数据,关联个人健康记录(PHR)(“Pep Up”),开发并内部验证了CPAP治疗的SA
目的:在一般人群中开发并验证一种持续气道正压通气(CPAP)治疗的睡眠呼吸暂停综合征(SAS)的预测模型。方法:研究人员利用JMDC公司持有的理赔(claims)数据与体检数据,关联个人健康记录(PHR)(“Pep Up”),开发并内部验证了CPAP治疗的SAS预测模型,结局定义为SAS诊断合并CPAP理赔记录。从2022年1月1日至2024年7月1日每3个月取一个时点(共11个时点),研究人员筛选出该时点前后各1年均具可用数据的合格个体以界定CPAP治疗的SAS之有无,并纳入279个预测变量。研究人员基于训练与调参数据集开发LightGBM模型,并在验证数据集上评估性能。结果:总体获得18?692?873条观测(平均年龄44.8?±?11.3岁;女性37.5%)来自1?858?566名个体;其中300?868条观测(1.6%)存在CPAP治疗的SAS。受试者工作特征曲线下面积(AUROC)为0.898(95%置信区间0.895–0.901)。预测风险最高1%和10%的观测中阳性预测值(PPV)分别为28.3%和10.3%。根据SHapley Additive exPlanations(SHAP)图,男性性别是最重要预测因子,依次为年龄、体重指数(BMI)和腰围。此外,个人健康记录(PHR)显著提升了预测性能。结论:研究人员开发了可识别CPAP治疗的SAS高危个体的预测模型,并可促使高危者接受多导睡眠图(PSG)或相关检查。
论文解读:《基于医保理赔数据与体检数据关联个人健康记录(PHR)的持续气道正压通气(CPAP)治疗的睡眠呼吸暂停综合征(SAS)预测模型的开发与内部验证》,发表于《Sleep and Breathing》。
研究背景方面,睡眠呼吸暂停综合征(SAS)主要为阻塞性睡眠呼吸暂停(OSA),是常见的睡眠呼吸疾病,与多种发病及死亡风险相关,早期发现和干预对改善预后十分重要。然而多数SAS个体未被诊断,原因在于自身难以识别症状,且多导睡眠图(PSG)等设备与服务在包括日本在内的多数国家容量有限,导致及时诊断与CPAP等治疗受限。既往多数SAS/OSA诊断预测模型的研究人群为接受PSG或相关检查者,样本量偏小且不具备一般人群代表性,无法用于指导一般人群中谁应优先接受PSG等检查。因此需要在一般人群代表性样本中,利用常规收集的健康数据(如医保理赔数据、体检数据、个人健康记录(PHR))开发SAS预测模型,以高效筛查高危个体并引导其接受确诊检查。
为开展研究,研究人员主要采用以下关键技术方法:样本队列来源于JMDC公司持有的雇员保险参保人群的医保理赔(claims)数据、体检数据,以及关联至同一系统的移动App“Pep Up”所收集的个人健康记录(PHR)(含可穿戴设备、家用医疗设备与手动录入的生活日志数据),使用者均签署研究知情同意;研究设计为横断面“诊断”预测框架(区别于“预后”预测未来发病),以每3个月从2022年1月1日至2024年7月1日共11个时点作为索引日期,要求个体在索引日前后各1年均有数据以界定结局与提取预测变量;结局定义为索引日前后2年内出现SAS诊断(ICD-10对应代码G47.3,排除“疑似”诊断)且有理赔记录的CPAP操作(对应日本诊疗代码C107-2、C171-2、C165),符合日本医保报销规范(CPAP需PSG之AHI≥20或简易居家脉搏血氧仪与气流传感器检查AHI≥40方可报销,且政府监管保障高特异性);预测变量共279个,包括索引日时的性别与年龄、索引月前1年内每月计数(0–12)的50种疾病诊断与94种药物处方(对应WHO-ATC 3位码)、索引日前2年内最近的23项体检结果、索引日前90天至1天内的110项PHR生活日志数据(血压、心率、体重、体脂、步数、睡眠时长等);数据分析将个体(非观测)按6:2:2随机分为训练集、调参集、验证集,采用LightGBM(梯度提升决策树)以log-loss为损失函数,通过网格搜索调参(num_leaves、min_child_samples、feature_fraction)并结合早停确定迭代次数,对部分预测变量施加单调约束以提升临床可解释性,缺失值由模型内部处理;性能指标为AUROC与预测风险最高1%和10%的阳性预测值(PPV),解释性采用SHAP蜂群图展示前20位预测因子贡献;另开展按性别分层亚组分析、按11个时点分别验证的敏感性分析、预后模型(新发CPAP治疗SAS)敏感性分析,以及评估PHR变量贡献的对比模型(全变量vs无PHR变量)并结合整合判别改进(IDI)指标,且在“轻度使用PHR”(至少1项非缺失PHR变量)和“重度使用PHR”(索引日前90天内收缩压、舒张压、静息心率、体重、体脂率、步数、睡眠时长均≥30天记录)子集中分别分析。
结果部分保留小标题如下:
Results:总体观测18?692?873条(来自1?858?566人,均值年龄44.8±11.3岁,女性37.5%),CPAP治疗SAS占1.6%(300?868观测)。AUROC为0.898(95%CI 0.895–0.901);预测风险最高1%和10%的PPV分别为28.3%和10.3%。SHAP图显示最重要预测因子为男性性别,其后依次为年龄、体重指数(BMI)、腰围。
在亚组分析(subgroup analysis)中,男性观测CPAP治疗SAS患病率为2.4%,女性为0.2%;男性AUROC 0.860(95%CI 0.856–0.864),女性AUROC 0.906(95%CI 0.890–0.922);最高1%和10%风险组的PPV男性为32.7%和13.3%,女性为7.2%和1.7%;性别别SHAP图见补充材料。
在第一项敏感性分析(sensitivity analysis,按11个时点分别验证)中,各时点验证集AUROC几乎一致,表明预测能力不受年份或季节影响。第二项敏感性分析(预后模型:索引日后1年新发CPAP治疗SAS)在18?326?135观测中发现0.22%(39?906)为新发病例,AUROC为0.845(95%CI 0.838–0.851)。
在评估PHR贡献的附加分析中,轻度PHR使用者(≥1项非缺失PHR变量,来自460?632人2?300?547观测,CPAP治疗SAS占1.8%)的全变量模型AUROC为0.896(95%CI 0.888–0.903),无PHR模型为0.895(95%CI 0.887–0.902),AUROC提升0.001(95%CI 0.0003–0.002),IDI为1.07%(95%CI 0.93–1.22);SHAP前20中PHR变量仅“Pep Up记录的三个月平均睡眠时长”排第14位。重度PHR使用者(≥30天记录前述7项PHR变量,来自2?441人8?865观测,CPAP治疗SAS占5.5%)全变量模型AUROC为0.836(95%CI 0.684–0.938),无PHR模型为0.826(95%CI 0.670–0.935),AUROC提升0.010(95%CI -0.004–0.024),IDI为4.57%(95%CI 2.22–6.67);SHAP前20中有5项PHR变量排第9–17位。
讨论部分总结:研究人员开发的基于理赔数据、体检数据并联PHR的CPAP治疗SAS预测模型AUROC达0.898,在一般人群中具良好判别能力;考虑到PSG等资源有限,对预测风险最高段个体(如前1% PPV 28.3%、前10% PPV 10.3%)优先推荐PSG或居家简易检查(脉搏血氧仪、气流传感器、便携脑电图)是高效策略。已知SAS危险因素(男性、高龄、高BMI、大腰围)亦是本模型最重要预测因子。PHR变量整体在轻度使用者中仅微小提升AUROC与IDI,且仅有平均睡眠时长进入SHAP前20;但在重度使用者中提升更明显(IDI 4.57%),多项PHR变量进入SHAP前20,说明当PHR服务被持续、充分使用时对SAS预测贡献更大;随PHR数据积累未来价值可能进一步提高。讨论指出本模型优势是可仅用常规体检与理赔数据分层风险,适合企业、市町村健康项目大规模实施,并入PHR还能覆盖门诊就医有限者(如居家医疗人群),在专科就医生源不足地区有助远程识别高危者。局限性包括:结局仅为CPAP治疗SAS(较重亚型),患病率1.6%低于社区任意SAS(AHI≥15约男性9.0%、女性2.8%),可能低估未诊断/未治SAS且女性漏诊更严重,致使男性成为主导预测因子而产生算法公平性问题,实践中可考虑性别分层模型(本数据显示性别别AUROC仍良好);研究人群为Pep Up用户(多为企业职工及家属),比一般日本人群健康意识更强,外推性需谨慎,跨国适用性亦待检验;PHR缺失较多(非常规所有用户都用设备),未来随着PHR普及可再评估;未纳入已知影响AHI的体位等变量。最后研究人员总结:开发了基于理赔、体检并联PHR的CPAP治疗SAS预测模型,判别性能良好,可用于反馈高危个体并接受PSG等确诊检查。结论翻译为:研究人员开发了基于理赔数据与体检数据关联个人健康记录(PHR)的CPAP治疗的睡眠呼吸暂停综合征(SAS)预测模型,显示出良好的预测能力。该模型可用于提供反馈并促使具有高预测评分的个体接受多导睡眠图(PSG)或相关检查以实现明确诊断与治疗。