今日动态 返回首页
会员注册 登录 生物通快讯免费订阅
  • 首页 今日动态 人才市场 新技术专栏 中国科学人 云展台
    BioHot
    • 定制我的BioHot
    • 进入我的BioHot
    • 进入我的集采
    • 肿瘤癌症研究
    • 免疫/基因/细胞疗法
    • 神经生物学
    • 健康与疾病
    • 衰老机制与长寿
    • 单细胞技术
    • 基因编辑-CRISPR
    • RNA研究
    • 肠道菌与人体微生态
    • 细胞代谢
    • AI生物信息学
    • COVID
    云讲堂直播 会展中心 特价专栏 技术快讯 免费试用

  • 生物通官微
    陪你抓住生命科技
    跳动的脉搏

生物通首页  >  今日动态  >  正文

核医学领域中大型语言模型处理患者医疗及行政咨询的实际应用评估

《npj Digital Medicine》:Real-world evaluation of large language model for patients medical and administrative queries in nuclear medicine

【字体: 大 中 小 】 时间:2026年06月18日 来源:npj Digital Medicine 15.1

编辑推荐:

  摘要大型语言模型可以通过回答患者的问题来为他们提供帮助,但其在实际临床中的应用前景仍不确定。本研究收集了患者提出的问题,并由核医学医师、行政人员以及ChatGPT v4.1进行回复。医学和行政领域的专家以及两名独立的非专家根据QUEST框架的17个维度中的15个对这些回复进行了评

  

摘要

大型语言模型可以通过回答患者的问题来为他们提供帮助,但其在实际临床中的应用前景仍不确定。本研究收集了患者提出的问题,并由核医学医师、行政人员以及ChatGPT v4.1进行回复。医学和行政领域的专家以及两名独立的非专家根据QUEST框架的17个维度中的15个对这些回复进行了评估和打分。针对每个问题,将大型语言模型生成的回复与人类生成的回复进行比较,分为“更好”“相当”或“更差”三类;通过二项检验来判断大型语言模型的表现是否超过50%。评估评分者之间的一致性时采用了调整后的Kappa系数;统计显著性标准为

i

?<?0.05。共分析了339条药物相互作用相关问题、42条医学相关问题以及76条行政相关问题。在医学相关问题上,10个维度中有8个维度中,76%至98%的大型语言模型生成回复被医学专家认为与人类生成的回复相当或更好(p?<?0.001)。对于行政相关问题,非专家评分者认为大型语言模型生成的回复更具信息量(97%),也更受青睐(86%)。在医学相关问题上,大型语言模型生成的回复被认为更具信息量(67%),而人类生成的回复则更易理解(62%),双方在整体偏好上存在60%的意见分歧。比较来看,无论是医学相关问题还是行政相关问题,大型语言模型生成的回复与人类生成的回复之间的评分一致性都更高(医学相关问题为0.14–0.90 vs ?0.90–0.52,行政相关问题为0.92–1.00 vs ?0.63–???0.13)。尽管如此,大型语言模型生成的回复总体上仍受到好评,尤其是在行政相关问题上,但在将其用于临床之前还需进一步验证。
相关新闻
生物通微信公众号
生物通新浪微博
微信
新浪微博
我要投稿
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:大语言模型|医学应用|临床价值|专家评估|量化指标|人机对比

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号