关于大型语言模型在肺癌信息传递中的应用的一项横断面研究:可读性、质量及以患者为中心的评估
《Healthcare》:A Cross-Sectional Study of Large Language Models in Lung Cancer Information Delivery: Readability, Quality, and Patient-Centred Evaluation
【字体:
大
中
小
】
时间:2026年06月19日
来源:Healthcare 2.7
摘要
背景/目标:肺癌是全球癌症相关死亡的主要原因之一。随着越来越多的患者利用大型语言模型获取健康信息,评估这些工具的易读性及以患者为中心的设计显得尤为重要。本研究旨在比较ChatGPT-4o mini、Microsoft Copilot和Google Gemini在提供肺癌信息方面的表现,重点关注它们对健康素养较低的患者的帮助程度。方法:在这项横断面研究(2026年3月)中,分析了针对10个标准化肺癌相关问题的30条回复。评估标准包括使用JAMA基准和mDISCERN衡量质量,SMOG指数评估易读性,PEMAT-P则用于判断信息的可理解性和实用性。评分者间的一致性通过类内相关系数来分析。结果:ChatGPT-4o mini的易读性最佳,达到了六年级水平(SMOG:6.23 ± 0.72,p < 0.001)。Gemini的JAMA得分更高,表明其学术严谨性更强。虽然ChatGPT的PEMAT-P得分最高(63.7%),但所有模型的mDISCERN质量都处于中等水平。JAMA和PEMAT-P的评分者间一致性非常好(ICC = 1.000和ICC = 0.883),而mDISCERN的一致性则处于中等水平(ICC = 0.365),这反映出定性评估中存在的固有主观性。研究中未发现幻觉现象。结论:目前的大型语言模型在易用性与学术严谨性之间存在平衡问题:ChatGPT更注重便于患者理解的表述方式,而Gemini则侧重于结构化的内容呈现。mDISCERN评分中的差异体现了对人工智能定性评估进行标准化的复杂性。这些研究结果表明,大型语言模型作为辅助工具的效果更好,无法替代医生与患者之间的直接沟通。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号