《Frontiers in Public Health》:Benchmarking public large language model responses to patient-facing varicose veins questions: informational quality, verifiability indicators, and readability
编辑推荐:
目的(Objectives):测评公开可访问大语言模型(Large Language Model, LLM)对标准化、面向患者的静脉曲张(varicose veins, VV)问题的回答在信息质量(informational quality)、可验证性指标(v
目的(Objectives):测评公开可访问大语言模型(Large Language Model, LLM)对标准化、面向患者的静脉曲张(varicose veins, VV)问题的回答在信息质量(informational quality)、可验证性指标(verifiability indicators)及可读性(readability)方面的表现。方法(Methods):研究人员从PubMed收录的VV及慢性静脉疾病(chronic venous disease)指南与共识中提取20个单一意图(single-intent)的VV患者提问,覆盖诊疗决策关键环节而非按真实患者问询频次加权抽样。2026年2月10日至12日,研究人员在默认设置下通过官方网页界面向5款公开LLM(ChatGPT 5.2、DeepSeek-V3.2、Gemini 3 Pro、Grok 4.1及Qwen3-Max)各提问一次,每问新建隐私浏览会话,生成100条回答,拒绝回答或非实质性输出亦予保留。两名盲法临床医师独立评分DISCERN(16–80分)、确保患者获得优质信息(Ensuring Quality Information for Patients, EQIP)(0%–100%)、全局质量评分(Global Quality Score, GQS)(1–5分)及《美国医学会杂志》(Journal of the American Medical Association, JAMA)基准(0–4分,本研究将其用作可见引文与可验证性相关特征的代理衡量而非对话式AI全面透明度测量)。可读性采用6种标准指数评估。评分者间信度用ICC(A,1)及加权Cohen's κ检验,模型间差异用Friedman检验配Kendall's W及Holm校正。结果(Results):评分者间信度良好[DISCERN ICC(A,1)=0.913;EQIP ICC(A,1)=0.859;GQS κ=0.883;JAMA κ=0.864]。各模型信息质量评分相近(DISCERN均值46.50–50.75;EQIP均值71.50%–74.25%;GQS中位数均为4.0);JAMA评分普遍极低(均值0.00–0.25,中位数0),表明默认输出中可见出处标注与可验证性线索稀疏。经Holm校正后主要信息质量指标无显著模型间差异。可读性差异较明显,且所有模型超出推荐的不超过六年级(sixth-grade)可读性阈值。结论(Conclusions):在默认公众用户设置下,公开LLM生成的VV回答流畅但可见可验证性指标有限且可读性欠佳。主要信息质量结果差异微小应谨慎解读。本基准评价的是沟通层面表现而非逐条临床事实准确性或安全性。结果支持改进LLM输出的可追溯性(auditability)、来源报告(provenance reporting)及不确定性沟通(uncertainty communication),但这些维度不能替代对事实准确性、指南一致性及临床安全性的正式评估。
论文解读:《Benchmarking Public Large Language Model Responses to Patient-Facing Varicose Veins Questions: Informational Quality, Verifiability Indicators, and Readability》发表于《Frontiers in Public Health》
一、研究背景与立题依据
静脉曲张(varicose veins, VV)及慢性静脉疾病(chronic venous disease, CVD)全球患病率高,可致显著症状负担、功能损害及并发症。现有网络血管健康内容质量与可读性参差不齐,常超患者理解水平,对健康素养有限者形成障碍。公开大语言模型(Large Language Model, LLM)日益被患者用来获取健康信息,但其输出常缺乏可验证性线索(如出处、引文),且可能伪造参考文献,削弱可信度。目前尚缺乏以临床指南为锚定、针对LLM面向患者的专科疾病问答在信息质量、可验证性及可读性上的系统测评。因此,研究人员开展此项横断面基准研究,以标准化VV问题集测评5款主流公开LLM输出在患者教育信息质量、JAMA基准衡量的可验证性指标及可读性上的表现,识别改进方向。
二、主要关键技术方法概述
研究人员限定检索PubMed近10年VV/CVD指南与共识,经筛选纳入6份文件提取决策节点,转化为20个单意图、面向患者的英文VV提问,覆盖定义/预后、危险因素、红旗症状、多普勒超声(duplex ultrasound)诊断、保守治疗与压力治疗(compression therapy)、介入术式及围术期/术后护理、复发预防全流程。2026年2月10–12日,研究者在浏览器隐私模式下,通过ChatGPT 5.2、DeepSeek-V3.2、Gemini 3 Pro、Grok 4.1、Qwen3-Max官方网页界面以默认设置逐一输入20问(每问新建会话、一键式无追问),收集100条回答(含拒答保留)。两名>10年资历临床医师盲法独立用DISCERN总分(16–80)、EQIP总分(0%–100%)、GQS(1–5分)及JAMA基准总分(0–4分,作为可见归属与可验证性透明度代理指标而非完整AI透明度测量)评分;可读性用自动可读指数(Automated Readability Index, ARI)、Flesch易读性得分(Flesch Reading Ease Score, FRES)、Gunning雾指数(Gunning Fog Index, GFI)、Flesch–Kincaid年级水平(Flesch–Kincaid Grade Level, FKGL)、Coleman–Liau指数(Coleman–Liau Index, CL)和简单胡言乱语测度(Simple Measure of Gobbledygook, SMOG)共6项计算。统计采用Friedman检验进行同问题配对比较,Kendall's W估计效应量,Holm法校正多重比较;分类/等级结果用Wilcoxon符号秩检验做两两比较;评分者间信度用ICC(A,1)(连续变量)和加权Cohen's κ(等级变量)评估。
三、研究结果
患者面向问题集与分析单元(Study design and analytic units / Patient-facing question set and analytic units)
最终基准含20个单意图VV提问(如VV定义、病因、高危人群、未治进展、需急诊症状、是否行duplex ultrasound、CEAP分级、动静脉病鉴别、生活方式/运动、压力袜压力值及禁忌、腔内激光消融(endovenous laser ablation, EVLA)、射频消融(radiofrequency ablation, RFA)、超声引导泡沫硬化疗法(ultrasound-guided foam sclerotherapy)、术后即刻注意事项、血栓预防、皮肤改变与静脉性溃疡处理、复发可能),覆盖诊疗路径决策关键点而非模拟真实问询频次分布,并事后比对Google Trends与百度知道热门查询具部分现实对齐。5款LLM各答20问得100条回答构成分析单元。
评分者间信度(Interrater agreement)
100个模型–问题单元上,DISCERN ICC(A,1)=0.913,EQIP ICC(A,1)=0.859,GQS加权κ=0.883,JAMA基准加权κ=0.864,信度均达优秀水平,支持后续比较可靠性。
信息质量与透明度代理表现(Informational quality and transparency-proxy performance)
DISCERN总分各模型均值46.50(Qwen3-Max)至50.75(DeepSeek-V3.2),EQIP均值71.50%–74.25%(DeepSeek-V3.2最高),GQS均值3.90–4.30且中位数均为4.0,提示各模型患者导向信息质量尚可且彼此接近。JAMA基准总分均值0.00–0.25、中位数0.00(仅Grok 4.1偶有非零),表明默认输出几无作者归属、来源标注、披露及更新日期等可验证性线索。
可读性表现(Readability performance)
各可读性指数显示模型间差异显著:Gemini 3 Pro在年级水平指标(ARI、GFI、FKGL、CL、SMOG)得分最低(更易读),FRES最高(50.55);Grok 4.1与Qwen3-Max年级水平较高(较难读),Qwen3-Max FRES最低(29.95)。所有模型ARI/GFI/FKGL/CL/SMOG超六年级阈值,FRES远低于推荐≥80,无一达到常见可及性目标。平均词数DeepSeek-V3.2最长(约555词),Grok 4.1最短(约269词),冗长度部分解释可读性差异。
整体模型间差异与归一化模式(Overall between-model differences and normalized patterns)
主要信息质量指标Friedman检验DISCERN χ2(4)=11.266(P=0.024,W=0.141)、JAMA χ2(4)=12.000(P=0.017,W=0.150)经10项Holm校正后P>0.05(分别为0.071与0.069),EQIP(P=0.260)与GQS(P=0.081)无整体差异,即主要信息质量无统计学显著模型间差别。可读性6项指标均P<0.001且Holm校正后仍显著(CL最大W=0.781,FRES W=0.675)。两两比较原始P值显示DeepSeek-V3.2 DISCERN略高于Gemini 3 Pro与Qwen3-Max,GQS略高于ChatGPT 5.2与Qwen3-Max,Grok 4.1 JAMA略高于DeepSeek-V3.2与Gemini 3 Pro,但均未通过严格校正。
四、讨论与结论总结(翻译浓缩)
本研究用指南锚定的20问VV基准测评5款公开LLM,评分者间信度优秀。各模型患者导向信息质量(DISCERN、EQIP、GQS)相近且总体可接受,但JAMA可验证性指标近乎零——用户无法从默认输出获知信息来源、时效与不确定性。可读性在各模型间差异大,但均超六年级推荐阈值,部分源于必要医学内容及模型自身冗长句式与术语。研究未评估逐条事实准确性、指南符合度与临床安全性,JAMA基准原用于网站亦非LLM专属透明度金标准。结果表明公开LLM面向患者VV问答流畅但缺审计线索且偏难读,支持未来设计中加入循证来源标注(指南组织/年份/推荐条目)、生成日期、明确不确定性声明及红旗症状升级触发提示,并优化可读性;这些改进维度补充而非替代对事实准确性、指南一致性与临床安全性的正式评估。
结论(Conclusions):在默认公众用户设置下,公开可访问LLM生成了流畅的VV回答,但具有限的可见可验证性指标与次优可读性。主要信息质量结果差异微小应谨慎解释。本基准评价的是沟通相关表现而非逐条临床准确性或安全性。这些发现支持努力改善面向患者的LLM输出的可追溯性(auditability)、来源报告(provenance reporting)及不确定性沟通(uncertainty communication),但这些维度不能替代对事实准确性、指南一致性(guideline concordance)及临床安全性的正式评估。