
-
生物通官微
陪你抓住生命科技
跳动的脉搏
核医学领域中大型语言模型处理患者医疗及行政咨询的实际应用评估
《npj Digital Medicine》:Real-world evaluation of large language model for patients medical and administrative queries in nuclear medicine
【字体: 大 中 小 】 时间:2026年06月18日 来源:npj Digital Medicine 15.1
编辑推荐:
摘要大型语言模型可以通过回答患者的问题来为他们提供帮助,但其在实际临床中的应用前景仍不确定。本研究收集了患者提出的问题,并由核医学医师、行政人员以及ChatGPT v4.1进行回复。医学和行政领域的专家以及两名独立的非专家根据QUEST框架的17个维度中的15个对这些回复进行了评
大型语言模型可以通过回答患者的问题来为他们提供帮助,但其在实际临床中的应用前景仍不确定。本研究收集了患者提出的问题,并由核医学医师、行政人员以及ChatGPT v4.1进行回复。医学和行政领域的专家以及两名独立的非专家根据QUEST框架的17个维度中的15个对这些回复进行了评估和打分。针对每个问题,将大型语言模型生成的回复与人类生成的回复进行比较,分为“更好”“相当”或“更差”三类;通过二项检验来判断大型语言模型的表现是否超过50%。评估评分者之间的一致性时采用了调整后的Kappa系数;统计显著性标准为
i
?<?0.05。共分析了339条药物相互作用相关问题、42条医学相关问题以及76条行政相关问题。在医学相关问题上,10个维度中有8个维度中,76%至98%的大型语言模型生成回复被医学专家认为与人类生成的回复相当或更好(p?<?0.001)。对于行政相关问题,非专家评分者认为大型语言模型生成的回复更具信息量(97%),也更受青睐(86%)。在医学相关问题上,大型语言模型生成的回复被认为更具信息量(67%),而人类生成的回复则更易理解(62%),双方在整体偏好上存在60%的意见分歧。比较来看,无论是医学相关问题还是行政相关问题,大型语言模型生成的回复与人类生成的回复之间的评分一致性都更高(医学相关问题为0.14–0.90 vs ?0.90–0.52,行政相关问题为0.92–1.00 vs ?0.63–???0.13)。尽管如此,大型语言模型生成的回复总体上仍受到好评,尤其是在行政相关问题上,但在将其用于临床之前还需进一步验证。