关于大型语言模型在肺癌信息传递中的应用的一项横断面研究:可读性、质量及以患者为中心的评估

《Healthcare》:A Cross-Sectional Study of Large Language Models in Lung Cancer Information Delivery: Readability, Quality, and Patient-Centred Evaluation

【字体: 时间:2026年06月19日 来源:Healthcare 2.7

编辑推荐:

   摘要

  

摘要

背景/目标:肺癌是全球癌症相关死亡的主要原因之一。随着越来越多的患者利用大型语言模型获取健康信息,评估这些工具的易读性及以患者为中心的设计显得尤为重要。本研究旨在比较ChatGPT-4o mini、Microsoft Copilot和Google Gemini在提供肺癌信息方面的表现,重点关注它们对健康素养较低的患者的帮助程度。方法:在这项横断面研究(2026年3月)中,分析了针对10个标准化肺癌相关问题的30条回复。评估标准包括使用JAMA基准和mDISCERN衡量质量,SMOG指数评估易读性,PEMAT-P则用于判断信息的可理解性和实用性。评分者间的一致性通过类内相关系数来分析。结果:ChatGPT-4o mini的易读性最佳,达到了六年级水平(SMOG:6.23 ± 0.72,p < 0.001)。Gemini的JAMA得分更高,表明其学术严谨性更强。虽然ChatGPT的PEMAT-P得分最高(63.7%),但所有模型的mDISCERN质量都处于中等水平。JAMA和PEMAT-P的评分者间一致性非常好(ICC = 1.000和ICC = 0.883),而mDISCERN的一致性则处于中等水平(ICC = 0.365),这反映出定性评估中存在的固有主观性。研究中未发现幻觉现象。结论:目前的大型语言模型在易用性与学术严谨性之间存在平衡问题:ChatGPT更注重便于患者理解的表述方式,而Gemini则侧重于结构化的内容呈现。mDISCERN评分中的差异体现了对人工智能定性评估进行标准化的复杂性。这些研究结果表明,大型语言模型作为辅助工具的效果更好,无法替代医生与患者之间的直接沟通。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号