关于大型语言模型在肺癌信息传递中的应用的一项横断面研究：可读性、质量及以患者为中心的评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Healthcare》：A Cross-Sectional Study of Large Language Models in Lung Cancer Information Delivery: Readability, Quality, and Patient-Centred Evaluation

【字体：大中小】 时间：2026年06月19日 来源：Healthcare 2.7

编辑推荐：

　　摘要

摘要

背景/目标：肺癌是全球癌症相关死亡的主要原因之一。随着越来越多的患者利用大型语言模型获取健康信息，评估这些工具的易读性及以患者为中心的设计显得尤为重要。本研究旨在比较ChatGPT-4o mini、Microsoft Copilot和Google Gemini在提供肺癌信息方面的表现，重点关注它们对健康素养较低的患者的帮助程度。方法：在这项横断面研究（2026年3月）中，分析了针对10个标准化肺癌相关问题的30条回复。评估标准包括使用JAMA基准和mDISCERN衡量质量，SMOG指数评估易读性，PEMAT-P则用于判断信息的可理解性和实用性。评分者间的一致性通过类内相关系数来分析。结果：ChatGPT-4o mini的易读性最佳，达到了六年级水平（SMOG：6.23 ± 0.72，p < 0.001）。Gemini的JAMA得分更高，表明其学术严谨性更强。虽然ChatGPT的PEMAT-P得分最高（63.7%），但所有模型的mDISCERN质量都处于中等水平。JAMA和PEMAT-P的评分者间一致性非常好（ICC = 1.000和ICC = 0.883），而mDISCERN的一致性则处于中等水平（ICC = 0.365），这反映出定性评估中存在的固有主观性。研究中未发现幻觉现象。结论：目前的大型语言模型在易用性与学术严谨性之间存在平衡问题：ChatGPT更注重便于患者理解的表述方式，而Gemini则侧重于结构化的内容呈现。mDISCERN评分中的差异体现了对人工智能定性评估进行标准化的复杂性。这些研究结果表明，大型语言模型作为辅助工具的效果更好，无法替代医生与患者之间的直接沟通。

联系信箱：

粤ICP备09063491号

摘要

热点排行