整合电子健康档案与大语言模型实现从粗到细的混合疾病预测

《Health Data Science》：Integrating Electronic Health Records and Large Language Models for Coarse-to-Fine Hybrid Disease Prediction

【字体：大中小】 时间：2026年06月09日 来源：Health Data Science

编辑推荐：

　　背景：电子健康档案（Electronic Health Records, EHRs）广泛采用，但其诊断码高维、抽象且呈长尾分布，限制传统数据驱动模型效果与可解释性；大语言模型（Large Language Models, LLMs）具广博医学知识与强推理力，但

背景：电子健康档案（Electronic Health Records, EHRs）广泛采用，但其诊断码高维、抽象且呈长尾分布，限制传统数据驱动模型效果与可解释性；大语言模型（Large Language Models, LLMs）具广博医学知识与强推理力，但直接应用受限于庞大预测空间与有限领域适配。方法：提出从粗到细混合疾病预测（Coarse-to-Fine Hybrid Disease Prediction, CFHDP）框架。首先EHR驱动的基础预测模块生成粗预测；其次将患者信息序列化入定制提示模板（prompt template），经微调的LLM进一步评估高概率候选疾病；最后聚合模块融合两模块输出得精细预测。结果：CFHDP在eICU Collaborative Research Database（eICU-CRD）与Medical Information Mart for Intensive Care IV（MIMIC-IV）上一致优于现有非LLM与基于LLM方法——相较次优基线，eICU-CRD上P@5提升1.6%、P@10提升1.1%、P@20提升0.7%、R@5提升0.3%、R@10提升1.6%、R@20提升1.0%、加权F1（w-F1）提升1.4%、Jaccard提升1.0%；MIMIC-IV上相应提升2.6%、4.3%、4.2%、4.2%、5.9%、4.5%、6.0%、2.5%。进一步分析验证框架各组件有效性。结论：通过在从粗到细范式中整合EHR驱动基础预测与LLM评估，本研究为临床决策支持提供了有效实用的疾病预测框架。

《Integrating Electronic Health Records and Large Language Models for Coarse-to-Fine Hybrid Disease Prediction》论文解读

一、研究背景与开展缘由

电子健康档案（Electronic Health Records, EHRs）涵盖人口学信息与患者历次就诊记录，是临床预测研究的重要数据资源。疾病预测任务通常利用历史就诊中的诊断码（如国际疾病分类第9版ICD-9、第10版ICD-10）来预测末次就诊的诊断码。传统机器学习（支持向量机、XGBoost等）及深度学习模型（基于循环神经网络RNN的RETAIN、基于注意力机制的GRAM、HiTANet、CATNet等）通过捕捉诊断码时序依赖与共现关系学习疾病进展模式，但仍面临两大问题：一是推理能力有限——EHR中诊断码高维、抽象且呈长尾分布（大量码极少出现），数据驱动模型难以捕捉其语义关系与因果关联；二是可解释性差——现有EHR驱动模型多为"黑箱"，虽可用注意力权重或特征重要性可视化，但间接且难被临床医生理解。

大语言模型（Large Language Model, LLM）经大规模语料预训练，具备医学知识、强推理能力与生成直观文字依据（rationale）的潜力，但直接用于疾病预测存在挑战：一是预测空间庞大——全量疾病集输入导致上下文过长难以处理，逐病询问则推理成本不可承受；二是领域适配有限——未经恰当调整的LLM缺乏专科临床专长，易产生幻觉，输出临床不可靠。

为此，研究人员提出从粗到细混合疾病预测（Coarse-to-Fine Hybrid Disease Prediction, CFHDP）框架，以EHR驱动基础预测模块与经低秩适配（Low-Rank Adaptation, LoRA）微调的LLM互补结合，先由基础模块产出粗预测并筛选高概率候选疾病，再由LLM逐一评估候选病种的患病与否，最后通过结果聚合模块融合二者输出精炼预测，并为预测疾病提供文字依据。

该研究分别使用eICU Collaborative Research Database（eICU-CRD）与Medical Information Mart for Intensive Care IV（MIMIC-IV）两个公开重症监护数据集，以及北京友谊医院（Beijing Friendship Hospital, BFH）非ICU老年慢性病队列进行验证，论文发表于《Health Data Science》。

二、主要关键技术方法

研究人员采用两阶段训练：第一阶段训练EHR驱动基础预测模块（诊断码嵌入→Transformer编码器获就诊表示→Transformer解码器聚合纵向就诊信息得患者表示→Sigmoid输出全码概率向量）；第二阶段冻结基础模块，以其Top-n高概率码为候选，构造含人口学、疾病史、基础模块概率参考、诊疗指南与响应示例的定制提示模板（prompt template），用LoRA微调LLM（Qwen3-8B为默认骨干）做二分类（Present/Absent）微调。推断时依训练/验证集算得的各码F1分数给基础模块与LLM分配病种特异性权重，候选码取加权融合值、非候选码沿用基础模块原概率，得到最终预测?。实验按8:1:1划分数据，以Precision@k（P@k）、Recall@k（R@k）、加权F1（weighted F1, w-F1）与Jaccard相似度（Jaccard）为评价指标，并设RETAIN、GRAM、Timeline、HiTANet、Chet、CATNet、Sherbet、BioDynGrap、IICL、ADRL及LLM-DG、HuatuoGPT-o1-8B、MedGemma-27B、GPT-5.2、微调Qwen3-8B等多类基线对照，另做单病种（心力衰竭）预测、常见病与罕见病分组、模块替换（XGBoost、RETAIN作基础模块；Llama-3.1-8B、DeepSeek-LLM-7B、GLM-4-9B替LLM骨干）、提示模板变体、消融（仅基础模块/仅LLM/无微调LoRA/全局加权平均wa vs. 病种特异加权聚合）与超参数n（候选数）分析，并给LLM推断输出附临床依据供可解释性展示与扰动敏感性检验。

三、研究结果

Results（主结果）

在eICU-CRD（∣C∣=656码）与MIMIC-IV（∣C∣=4798码）上，CFHDP各指标均显著优于所有非LLM基线与LLM基线。eICU-CRD上次优多为LLM-DG（用冻结LLM编码疾病表示）或微调Qwen3-8B（端到端预测），MIMIC-IV亦同。端到端LLM（含27B级MedGemma与闭源GPT-5.2）多数指标不及传统非LLM基线，因缺显式预测空间提示且难精确匹配ICD码；而CFHDP限定LLM只做候选二分类评估，规避此缺陷。MIMIC-IV因预测空间更大，整体指标低于eICU-CRD。

Ablation study（消融研究）

"Only base"（只用EHR基础模块）与"Only LLM"（微调Qwen3-8B端到端预测）各有所长但均低于CFHDP，证实粗细混合设计互补有效。"w/o ft"（LLM不经LoRA微调直接评估）性能下降甚至差于"Only base"，说明未适配LLM引入噪声，病种特异性微调必要。"wa"（全局调权平均基础模块与LLM输出）即便调参仍不及CFHDP，证明按病种F1动态分配权重的聚合模块优于统一融合。

Module trade-off（模块权衡分析）

调节全局加权因子α（LLM权重），"wa"变体在eICU-CRD于α=0.6、MIMIC-IV于α=0.5达最优，过大或过小均降性能，说明两模块均不可或缺；且全α范围内"wa"均弱于CFHDP，再次验证病种特异加权聚合优势。

Hyperparameter analysis（超参数分析—候选数n）

n从0增至20时CFHDP综合性能持续提升；n=0→5增益小于n=5→20（前5位基础模块置信度高LLM修正空间小，排名6–20基础模块不确定LLM补正作用大）；n>20时eICU-CRD微升，MIMIC-IV反降（纳入过低概率码且病史信息不足致LLM引入猜测噪声），故取n=20平衡性能与效率。

Module variation（模块变体分析）

基础模块替换为XGBoost或RETAIN后各项指标下滑，原文Transformer编–解码架构更能捕捉码间复杂关联。LLM骨干换为Llama-3.1-8B、DeepSeek-LLM-7B或GLM-4-9B后个别指标有波动，原配Qwen3-8B多数指标最优；实践中可依侧重指标择骨干。

Prompt variation（提示模板变体分析）

对比"让LLM判断基础模块给出的概率是否准确并做数值调整"的替代模板，原文采用的"给定候选病名与临床信息请LLM输出Present/Absent及依据"模板在两数据集平均表现更优——LLM擅长分类而非算术推理任务。

Heart-failure prediction（心力衰竭专项预测—单标签二分类）

候选集仅含"心力衰竭"一枚，LLM对所有样本评估。CFHDP的F1与AUC均超各基线；结果聚合模块算出基础模块与LLM权重均≈0.5，两模块贡献相当。

Common diseases versus rare diseases（常见病vs.罕见病分组）

按频次前20%为常见病、其余为罕见病。CFHDP在两组及两数据集R@10、R@20均最优；所有方法罕见病性能明显低于常见病（EHR罕见病共现信息稀疏+LLM缺罕见病知识），MIMIC-IV组差距更显著（患者病史更长且多为常见病拉高常见病排序）。

Applicability to other datasets（跨数据集适用性—BFH队列）

BFH为≥65岁非ICU老年患者（冠心病、高血压、糖尿病等慢性病），428枚ICD-10码。CFHDP八项指标全超各基线，证明框架可泛化至不同临床场景、人群与编码体系。

Functioning and interpretability（功能与可解释性案例）

选例显示：新发病种虽不在病史，LLM据既往病（如低氧血症、肺功能不全）与目标病（急性呼吸衰竭）因果关联上调概率并给出依据；无关联病种LLM可驳回基础模块偏高概率。扰动分析——逐次剔除病史中一枚诊断码再重判——仅剔除临床决定性码（文中加粗示799.02低氧血症与518.82其他肺功能不全）才改变结论，表明LLM评估选择性敏感于真正相关临床线索非随机扰动，且依据文字与模型依赖点吻合已知医学知识。另临床医生对1000条推因–依据对按"结论正确性"分组打分，总组陈述正确性与逻辑忠实性均>4/5分，正确结论组评分高于错误组。

Beyond end-to-end commercial LLMs（对比端到端商用LLM）

案例示CFHDP能识别新发疾病（商用ChatGPT、DeepSeek-V3.2、Gemini 3不能），且不易将仅存于病史非待诊疾病的码误赋高概率，缘于基础模块初筛候选空间使LLM聚焦二元判断。

四、讨论与结论翻译

讨论（浓缩）： CFHDP以互补方式整合EHR基础预测与微调LLM，基础模块初筛候选解决LLM面对全疾病空间困难，LoRA微调解决LLM领域适配不足。模块化设计允许基础预测器与LLM骨干替换，可持续受益于EHR建模与LLM技术进展。计算上LoRA仅训少量参数且基础模块预筛大幅减LLM推断量，候选数n可调权衡性能与开销。可解释性上LLM生成文字依据帮临床医生高效审看与理解决策理由。局限含：提示模板手工设计非最优；患者记录致提示长短不一增微调/推断成本；依赖ICD码→文本映射若模糊或不完整会影响效果；LLM内部推理仍不够透明需融合可解释人工智能（Explainable AI, XAI）；罕见病仍受LLM知识所限，未来可引入检索增强生成（Retrieval-Augmented Generation, RAG）。

结论（翻译）： 本研究提出一种新颖的从粗到细混合疾病预测（CFHDP）框架。与多数现有方法不同，CFHDP以互补方式整合EHR驱动基础预测模块与经微调LLM，对缩减后候选疾病集做聚焦的患病评估。 extensive实验证明CFHDP在各指标上一致优于强基线。未来工作拟探究自动提示工程、解决患者记录中数据不完整与歧义、将可解释人工智能方法整合入框架，并探索检索增强生成以融入外部医学知识，进一步提升CFHDP在多临床环境中的鲁棒性与适用性。

热点排行