利用大语言模型（Large Language Model, LLM）评估抗癌药物医保报销资格适格性：基准数据集构建与比较研究

《Journal of Medical Internet Research》：Assessing Eligibility for Anticancer Drug Health Insurance Reimbursement Using Large Language Models: Benchmark Development and Comparative Study

【字体：大中小】 时间：2026年06月18日 来源：Journal of Medical Internet Research 6

编辑推荐：

　　背景：医疗保障体系中的行政成本部分由复杂的保险适格性判定所驱动。大语言模型（LLM）日益被用于健康保险相关查询，但其对覆盖标准进行结构化逻辑推理的可靠性尚未得到系统评估。目的：本研究旨在构建抗癌药物报销适格性判定基准，评估LLM是否能可靠执行适格性验证。方法：

背景：医疗保障体系中的行政成本部分由复杂的保险适格性判定所驱动。大语言模型（LLM）日益被用于健康保险相关查询，但其对覆盖标准进行结构化逻辑推理的可靠性尚未得到系统评估。目的：本研究旨在构建抗癌药物报销适格性判定基准，评估LLM是否能可靠执行适格性验证。方法：研究人员基于韩国国民健康保险（National Health Insurance, NHI）针对3种妇科恶性肿瘤（宫颈癌、子宫癌、卵巢癌）的报销指南构建基准，采用三态裁决框架（适格[eligible]、不适格[ineligible]及无法确定[undeterminable]）。3名妇科肿瘤学专家和1名审查护士对基准进行验证。输入官方指南文件，评估来自3家提供商（Anthropic、Google和OpenAI）的6个LLM。每案例各模型评估3次，最终预测取多数投票，比较3种结局类别的性能。结果：基准含74个抗癌方案共222个案例。整体验证准确率介于77.9％～88.7％。适格与不适格案例召回率高（86.5％～98.6％），但无法确定案例在所有模型中均显著下降（44.6％～70.3％）。性能因癌症类型而异，子宫癌无法确定召回率最低（16.7％），对应用南复杂度最高。无法确定案例主要被误判为适格而非不适格。三态框架实现对235个错误预测的基于逻辑的错误分析，显示信息缺口填补（information gap-filling）为主导失效模式（n＝196，83.4％），其次为准则误用（criterion misapplication，n＝20，8.5％）及虚假不确定性（false uncertainty，n＝19，8.1％）。亚类分析表明信息缺口填补错误集中于指南层级要素。敏感性分析显示将指南转为结构化文本降低性能，启用网页搜索条件（工具调用率0％～3.2％）及结构引导提示未较基线产生显著改变。结论：在本基准中，LLM对明确适格与不适格案例分类具较高召回率，但对无法确定案例可靠性有限。主导错误模式为信息缺口填补——模型推断适格而非保留判断。上述发现表明当前形式LLM应作为受监督的决策支持工具，而非报销审核中的独立裁决者。

论文解读：利用大语言模型评估抗癌药物医保报销资格适格性——基准构建与比较研究

该研究由Junhyuk Seo、Taerim Kim与Ju-Hyun Kim完成，发表于《Journal of Medical Internet Research》。研究背景指出，各国医疗保健系统中与账单和保险相关的行政管理成本居高不下，其中保险报销资格判定是核心环节。韩国实施全民国民健康保险（National Health Insurance, NHI），由健康保险审查与评估服务局（Health Insurance Review & Assessment Service, HIRA）依据详细覆盖规则进行事后理赔审查，判定错误直接导致拒付与行政负担。随着抗癌新药纳入NHI且支出激增，报销适格性标准日趋复杂，涉及肿瘤类型、既往治疗线数、生物标志物阈值及体能状态等多变量嵌套AND/OR逻辑条件，人工审核易发生遗漏与误解。尽管大语言模型（Large Language Model, LLM）被广泛用于健康保险咨询，但其在依据结构化指南进行严谨逻辑推理及识别信息不足情形方面的可靠性缺乏标准化评测基准。为此，研究人员构建了基于韩国NHI妇科恶性肿瘤抗癌药报销指南的三态裁决基准，系统评估6款主流LLM在信息完整与不完整条件下的适格性判定能力。

主要关键技术方法：研究人员选取韩国HIRA 2026年2月版妇科恶性肿瘤（宫颈癌、子宫体癌、卵巢癌）抗癌药报销审查指南，将各方案报销条件拆解为结构化临床属性。构建三态裁决框架——各必需条件标记为满足（met）、不满足（not met）及不可评估（unevaluable，因信息缺失）；案例层面对应适格（eligible，全条件met）、不适格（ineligible，≥1条件not met）、无法确定（undeterminable，无非met但≥1条件unevaluable）。经3名妇科肿瘤专家与1名审查护士验证达成共识（Cohen κ=0.93）。测评6个LLM：Gemini 3.1 Pro、Gemini 3 Flash（Google）；Claude Opus 4.6、Claude Sonnet 4.6（Anthropic）；GPT-5.4、GPT-5 Mini（OpenAI），提供原始PDF版指南，使用统一系统提示定义三态含义并要求输出JSON格式决策与理由，每案例重复运行3次取多数投票。统计分析计算精度、召回率、F₁值及Wilson置信区间，McNemar检验进行敏感性分析比对。错误分析按逻辑违背类型分类。

Benchmark Statistics（基准统计）

最终基准含74个抗癌方案（宫颈癌15个、子宫癌17个、卵巢癌42个），每方案配适格/不适格/无法确定各1例，共222例。平均每方案需验证条件4.2项（SD 1.9；范围2～11），子宫癌方案最复杂（最多11项条件）。专家与审查护士初评一致率95％，争议经共识解决。

Overall LLM Performance（LLM整体性能）

六模型整体准确率77.9％（GPT-5.4）至88.7％（Gemini 3.1 Pro），三次运行标准差0.3～2.0个百分点，无格式错误输出。所有模型均呈现无法确定案例召回率大幅低于适格与不适格案例的一致模式。

Analysis by Outcome Class（按结局类别分析）

适格案例召回率93.2％～98.6％，不适格案例86.5％～97.3％，均较高；无法确定案例召回率仅44.6％（GPT-5.4）～70.3％（Gemini 3.1 Pro）。无法确定案例误分类方向高度一致——绝大多数误判为适格（28.4％～50.0％），极少误判为不适格（0％～5.4％）。Bhapkar检验显示所有模型预测分布与观察分布边际异质性显著（均P＜.001）。

Analysis by Cancer Type（按癌症类型分析）

宫颈癌平均召回率最高（92.6％），卵巢癌次之（82.9％），子宫癌最低（71.9％）。适格与不适格召回各癌种均维持高位（89.7％～100％），但无法确定召回随方案复杂度恶化，子宫癌无法确定召回均值仅16.7％，对应其最高条件数与层级嵌套深度。

Error Analysis（错误分析）

235个误分类案例中，信息缺口填补（模型对缺失属性假定为met而判适格，或对undeterminable假定的not met判不适格）占83.4％（n=196），系主导失效模式；准则误用（criterion misapplication，忽略not met条件判适格或错误施加限制判不适格）占8.5％（n=20）；虚假不确定性（false uncertainty，信息足够却因过度保守判undeterminable）占8.1％（n=19）。信息缺口填补错误集中发生于指南层级要素——模型常忽略指明治疗意图（如姑息vs维持）的二级子标题[L2]及仅见于脚注[L4]的限定条件（如指定医疗机构要求）。

Sensitivity Analysis（敏感性分析）

将指南PDF解析为Markdown结构化文本输入后，六模型性能均下降，Claude两模型降幅达10.4～10.8个百分点（q＜.001）且显著。启用网页搜索条件下各模型工具调用率0％～3.2％，几乎未调用外部检索，性能较基线无显著变化（均q＞.05）。加入指南层级结构与逐步逐条件核验指令的结构引导提示同样未带来显著改善（均q＞.05）。

讨论与结论

研究人员指出LLM对明确可判定（适格/不适格）报销案例具较好召回表现，但在临床信息不完整时普遍无法正确识别"无法确定"状态，倾向填补缺失信息并偏向判为适格——即信息缺口填补偏差。此局限在指南层级复杂、条件数多的方案中尤为突出，且输入格式转换、网络搜索增强及结构引导提示均未能有效克服。鉴于韩国NHI事后审查制下误判适格可致医院承担退费损失，当前LLM不应作为独立裁决工具，而应定位于需人工监督的决策支持系统。未来需在更多癌种、真实非结构化病历及代理（agentic）或神经符号混合架构方向拓展验证。

结论翻译：本研究所引入的三态裁决框架为评估LLM在信息完整度可变的逻辑推理情境中的行为提供了独特途径。在该基准中，LLM对明确适格与不适格案例分类具较高召回率，但对无法确定案例可靠性有限。主导错误模式为信息缺口填补——模型推断适格而非保留判断。这些发现表明，当前形式的LLM应作为受监督的决策支持工具部署于报销审核流程，而非充当独立裁决者。

热点排行