《Health Data Science》:Integrating Electronic Health Records and Large Language Models for Coarse-to-Fine Hybrid Disease Prediction
编辑推荐:
背景:电子健康档案(Electronic Health Records, EHRs)广泛采用,但其诊断码高维、抽象且呈长尾分布,限制传统数据驱动模型效果与可解释性;大语言模型(Large Language Models, LLMs)具广博医学知识与强推理力,但
背景:电子健康档案(Electronic Health Records, EHRs)广泛采用,但其诊断码高维、抽象且呈长尾分布,限制传统数据驱动模型效果与可解释性;大语言模型(Large Language Models, LLMs)具广博医学知识与强推理力,但直接应用受限于庞大预测空间与有限领域适配。方法:提出从粗到细混合疾病预测(Coarse-to-Fine Hybrid Disease Prediction, CFHDP)框架。首先EHR驱动的基础预测模块生成粗预测;其次将患者信息序列化入定制提示模板(prompt template),经微调的LLM进一步评估高概率候选疾病;最后聚合模块融合两模块输出得精细预测。结果:CFHDP在eICU Collaborative Research Database(eICU-CRD)与Medical Information Mart for Intensive Care IV(MIMIC-IV)上一致优于现有非LLM与基于LLM方法——相较次优基线,eICU-CRD上P@5提升1.6%、P@10提升1.1%、P@20提升0.7%、R@5提升0.3%、R@10提升1.6%、R@20提升1.0%、加权F1(w-F1)提升1.4%、Jaccard提升1.0%;MIMIC-IV上相应提升2.6%、4.3%、4.2%、4.2%、5.9%、4.5%、6.0%、2.5%。进一步分析验证框架各组件有效性。结论:通过在从粗到细范式中整合EHR驱动基础预测与LLM评估,本研究为临床决策支持提供了有效实用的疾病预测框架。
《Integrating Electronic Health Records and Large Language Models for Coarse-to-Fine Hybrid Disease Prediction》论文解读
一、研究背景与开展缘由
电子健康档案(Electronic Health Records, EHRs)涵盖人口学信息与患者历次就诊记录,是临床预测研究的重要数据资源。疾病预测任务通常利用历史就诊中的诊断码(如国际疾病分类第9版ICD-9、第10版ICD-10)来预测末次就诊的诊断码。传统机器学习(支持向量机、XGBoost等)及深度学习模型(基于循环神经网络RNN的RETAIN、基于注意力机制的GRAM、HiTANet、CATNet等)通过捕捉诊断码时序依赖与共现关系学习疾病进展模式,但仍面临两大问题:一是推理能力有限——EHR中诊断码高维、抽象且呈长尾分布(大量码极少出现),数据驱动模型难以捕捉其语义关系与因果关联;二是可解释性差——现有EHR驱动模型多为"黑箱",虽可用注意力权重或特征重要性可视化,但间接且难被临床医生理解。
大语言模型(Large Language Model, LLM)经大规模语料预训练,具备医学知识、强推理能力与生成直观文字依据(rationale)的潜力,但直接用于疾病预测存在挑战:一是预测空间庞大——全量疾病集输入导致上下文过长难以处理,逐病询问则推理成本不可承受;二是领域适配有限——未经恰当调整的LLM缺乏专科临床专长,易产生幻觉,输出临床不可靠。
为此,研究人员提出从粗到细混合疾病预测(Coarse-to-Fine Hybrid Disease Prediction, CFHDP)框架,以EHR驱动基础预测模块与经低秩适配(Low-Rank Adaptation, LoRA)微调的LLM互补结合,先由基础模块产出粗预测并筛选高概率候选疾病,再由LLM逐一评估候选病种的患病与否,最后通过结果聚合模块融合二者输出精炼预测,并为预测疾病提供文字依据。
该研究分别使用eICU Collaborative Research Database(eICU-CRD)与Medical Information Mart for Intensive Care IV(MIMIC-IV)两个公开重症监护数据集,以及北京友谊医院(Beijing Friendship Hospital, BFH)非ICU老年慢性病队列进行验证,论文发表于《Health Data Science》。
二、主要关键技术方法
研究人员采用两阶段训练:第一阶段训练EHR驱动基础预测模块(诊断码嵌入→Transformer编码器获就诊表示→Transformer解码器聚合纵向就诊信息得患者表示→Sigmoid输出全码概率向量);第二阶段冻结基础模块,以其Top-n高概率码为候选,构造含人口学、疾病史、基础模块概率参考、诊疗指南与响应示例的定制提示模板(prompt template),用LoRA微调LLM(Qwen3-8B为默认骨干)做二分类(Present/Absent)微调。推断时依训练/验证集算得的各码F1分数给基础模块与LLM分配病种特异性权重,候选码取加权融合值、非候选码沿用基础模块原概率,得到最终预测?。实验按8:1:1划分数据,以Precision@k(P@k)、Recall@k(R@k)、加权F1(weighted F1, w-F1)与Jaccard相似度(Jaccard)为评价指标,并设RETAIN、GRAM、Timeline、HiTANet、Chet、CATNet、Sherbet、BioDynGrap、IICL、ADRL及LLM-DG、HuatuoGPT-o1-8B、MedGemma-27B、GPT-5.2、微调Qwen3-8B等多类基线对照,另做单病种(心力衰竭)预测、常见病与罕见病分组、模块替换(XGBoost、RETAIN作基础模块;Llama-3.1-8B、DeepSeek-LLM-7B、GLM-4-9B替LLM骨干)、提示模板变体、消融(仅基础模块/仅LLM/无微调LoRA/全局加权平均wa vs. 病种特异加权聚合)与超参数n(候选数)分析,并给LLM推断输出附临床依据供可解释性展示与扰动敏感性检验。
三、研究结果
Results(主结果)
在eICU-CRD(∣C∣=656码)与MIMIC-IV(∣C∣=4798码)上,CFHDP各指标均显著优于所有非LLM基线与LLM基线。eICU-CRD上次优多为LLM-DG(用冻结LLM编码疾病表示)或微调Qwen3-8B(端到端预测),MIMIC-IV亦同。端到端LLM(含27B级MedGemma与闭源GPT-5.2)多数指标不及传统非LLM基线,因缺显式预测空间提示且难精确匹配ICD码;而CFHDP限定LLM只做候选二分类评估,规避此缺陷。MIMIC-IV因预测空间更大,整体指标低于eICU-CRD。
Ablation study(消融研究)
"Only base"(只用EHR基础模块)与"Only LLM"(微调Qwen3-8B端到端预测)各有所长但均低于CFHDP,证实粗细混合设计互补有效。"w/o ft"(LLM不经LoRA微调直接评估)性能下降甚至差于"Only base",说明未适配LLM引入噪声,病种特异性微调必要。"wa"(全局调权平均基础模块与LLM输出)即便调参仍不及CFHDP,证明按病种F1动态分配权重的聚合模块优于统一融合。
Module trade-off(模块权衡分析)
调节全局加权因子α(LLM权重),"wa"变体在eICU-CRD于α=0.6、MIMIC-IV于α=0.5达最优,过大或过小均降性能,说明两模块均不可或缺;且全α范围内"wa"均弱于CFHDP,再次验证病种特异加权聚合优势。
Hyperparameter analysis(超参数分析—候选数n)
n从0增至20时CFHDP综合性能持续提升;n=0→5增益小于n=5→20(前5位基础模块置信度高LLM修正空间小,排名6–20基础模块不确定LLM补正作用大);n>20时eICU-CRD微升,MIMIC-IV反降(纳入过低概率码且病史信息不足致LLM引入猜测噪声),故取n=20平衡性能与效率。
Module variation(模块变体分析)
基础模块替换为XGBoost或RETAIN后各项指标下滑,原文Transformer编–解码架构更能捕捉码间复杂关联。LLM骨干换为Llama-3.1-8B、DeepSeek-LLM-7B或GLM-4-9B后个别指标有波动,原配Qwen3-8B多数指标最优;实践中可依侧重指标择骨干。
Prompt variation(提示模板变体分析)
对比"让LLM判断基础模块给出的概率是否准确并做数值调整"的替代模板,原文采用的"给定候选病名与临床信息请LLM输出Present/Absent及依据"模板在两数据集平均表现更优——LLM擅长分类而非算术推理任务。
Heart-failure prediction(心力衰竭专项预测—单标签二分类)
候选集仅含"心力衰竭"一枚,LLM对所有样本评估。CFHDP的F1与AUC均超各基线;结果聚合模块算出基础模块与LLM权重均≈0.5,两模块贡献相当。
Common diseases versus rare diseases(常见病vs.罕见病分组)
按频次前20%为常见病、其余为罕见病。CFHDP在两组及两数据集R@10、R@20均最优;所有方法罕见病性能明显低于常见病(EHR罕见病共现信息稀疏+LLM缺罕见病知识),MIMIC-IV组差距更显著(患者病史更长且多为常见病拉高常见病排序)。
Applicability to other datasets(跨数据集适用性—BFH队列)
BFH为≥65岁非ICU老年患者(冠心病、高血压、糖尿病等慢性病),428枚ICD-10码。CFHDP八项指标全超各基线,证明框架可泛化至不同临床场景、人群与编码体系。
Functioning and interpretability(功能与可解释性案例)
选例显示:新发病种虽不在病史,LLM据既往病(如低氧血症、肺功能不全)与目标病(急性呼吸衰竭)因果关联上调概率并给出依据;无关联病种LLM可驳回基础模块偏高概率。扰动分析——逐次剔除病史中一枚诊断码再重判——仅剔除临床决定性码(文中加粗示799.02低氧血症与518.82其他肺功能不全)才改变结论,表明LLM评估选择性敏感于真正相关临床线索非随机扰动,且依据文字与模型依赖点吻合已知医学知识。另临床医生对1000条推因–依据对按"结论正确性"分组打分,总组陈述正确性与逻辑忠实性均>4/5分,正确结论组评分高于错误组。
Beyond end-to-end commercial LLMs(对比端到端商用LLM)
案例示CFHDP能识别新发疾病(商用ChatGPT、DeepSeek-V3.2、Gemini 3不能),且不易将仅存于病史非待诊疾病的码误赋高概率,缘于基础模块初筛候选空间使LLM聚焦二元判断。
四、讨论与结论翻译
讨论(浓缩): CFHDP以互补方式整合EHR基础预测与微调LLM,基础模块初筛候选解决LLM面对全疾病空间困难,LoRA微调解决LLM领域适配不足。模块化设计允许基础预测器与LLM骨干替换,可持续受益于EHR建模与LLM技术进展。计算上LoRA仅训少量参数且基础模块预筛大幅减LLM推断量,候选数n可调权衡性能与开销。可解释性上LLM生成文字依据帮临床医生高效审看与理解决策理由。局限含:提示模板手工设计非最优;患者记录致提示长短不一增微调/推断成本;依赖ICD码→文本映射若模糊或不完整会影响效果;LLM内部推理仍不够透明需融合可解释人工智能(Explainable AI, XAI);罕见病仍受LLM知识所限,未来可引入检索增强生成(Retrieval-Augmented Generation, RAG)。
结论(翻译): 本研究提出一种新颖的从粗到细混合疾病预测(CFHDP)框架。与多数现有方法不同,CFHDP以互补方式整合EHR驱动基础预测模块与经微调LLM,对缩减后候选疾病集做聚焦的患病评估。 extensive实验证明CFHDP在各指标上一致优于强基线。未来工作拟探究自动提示工程、解决患者记录中数据不完整与歧义、将可解释人工智能方法整合入框架,并探索检索增强生成以融入外部医学知识,进一步提升CFHDP在多临床环境中的鲁棒性与适用性。