
-
生物通官微
陪你抓住生命科技
跳动的脉搏
探索利用自然语言处理从多参数MRI文本报告中推断前列腺癌病理分级的可行性:对四种大型语言模型的评估
《Abdominal Radiology》:Exploring the feasibility of inferring prostate cancer pathological grade from multiparametric MRI text reports using natural language processing: assessment of four large language models
【字体: 大 中 小 】 时间:2026年04月08日 来源:Abdominal Radiology 2.2
编辑推荐:
ISUP分级预测中,四款大语言模型(LLMs)在mpMRI文本报告基础上进行两次预测(一次单用文本,一次结合临床信息),三次重复测试显示其Kappa值达0.671-0.861,但准确率(32.7%-50.0%)显著低于资深/中级放射科医生(72.7%-68.7%),仅与初级医生相当。ChatGPT-4.1响应时间最短(0.95-17.19秒)。研究证实通用LLMs需特定微调方可临床应用。
本研究进行了自然语言处理的可行性分析,旨在比较四种大型语言模型(LLMs)在以下两个方面上的表现:(a)重现性;(b)基于前列腺多参数磁共振成像(mpMRI)的结构化文本报告,对国际泌尿病理学会分级组(ISUP GGs)的预测准确性。
研究首先使用LLMs仅根据mpMRI文本报告进行初始的ISUP GGs预测。随后进行了第二轮预测,其中纳入了临床信息。每轮预测重复三次以评估一致性。三名放射科医生独立完成了前两轮ISUP GGs预测,在审阅LLMs的预测结果后进行了第三轮评估。研究记录了响应时间。
研究共纳入150名患者(中位年龄为69岁)。在不同ISUP GGs之间,观察到年龄、PSA水平、前列腺体积、PSA密度和PI-RADS评分存在统计学上的显著差异。这四种LLMs的表现良好至优秀(Kappa值介于0.671–0.861之间)。ChatGPT-4.1的响应时间最短(0.95–17.19秒)。此外,研究发现LLMs的预测准确性(32.7–50.0%)显著低于资深放射科医生(72.7–76.0%)和中级放射科医生(66.0–68.7%),但与初级放射科医生(59.3–65.3%)相当。
通用型LLMs表现出优异的重现性。虽然ChatGPT-4.1在ISUP GGs预测和响应时间方面优于其他LLMs,但其预测准确性仍低于中级和资深放射科医生。因此,在将通用型LLMs应用于临床实践之前,需要对这项技术进行特定的微调。
本研究进行了自然语言处理的可行性分析,旨在比较四种大型语言模型(LLMs)在以下两个方面上的表现:(a)重现性;(b)基于前列腺多参数磁共振成像(mpMRI)的结构化文本报告,对国际泌尿病理学会分级组(ISUP GGs)的预测准确性。
研究首先使用LLMs仅根据mpMRI文本报告进行初始的ISUP GGs预测。随后进行了第二轮预测,其中纳入了临床信息。每轮预测重复三次以评估一致性。三名放射科医生独立完成了前两轮ISUP GGs预测,在审阅LLMs的预测结果后进行了第三轮评估。研究记录了响应时间。
研究共纳入150名患者(中位年龄为69岁)。在不同ISUP GGs之间,观察到年龄、PSA水平、前列腺体积、PSA密度和PI-RADS评分存在统计学上的显著差异。这四种LLMs的表现良好至优秀(Kappa值介于0.671–0.861之间)。ChatGPT-4.1的响应时间最短(0.95–17.19秒)。此外,研究发现LLMs的预测准确性(32.7–50.0%)显著低于资深放射科医生(72.7–76.0%)和中级放射科医生(66.0–68.7%),但与初级放射科医生(59.3–65.3%)相当。
通用型LLMs表现出优异的重现性。虽然ChatGPT-4.1在ISUP GGs预测和响应时间方面优于其他LLMs,但其预测准确性仍低于中级和资深放射科医生。因此,在将通用型LLMs应用于临床实践之前,需要对这项技术进行特定的微调。