探索利用自然语言处理从多参数MRI文本报告中推断前列腺癌病理分级的可行性：对四种大型语言模型的评估

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Abdominal Radiology》：Exploring the feasibility of inferring prostate cancer pathological grade from multiparametric MRI text reports using natural language processing: assessment of four large language models

【字体：大中小】 时间：2026年04月08日 来源：Abdominal Radiology 2.2

编辑推荐：

　　ISUP分级预测中，四款大语言模型（LLMs）在mpMRI文本报告基础上进行两次预测（一次单用文本，一次结合临床信息），三次重复测试显示其Kappa值达0.671-0.861，但准确率（32.7%-50.0%）显著低于资深/中级放射科医生（72.7%-68.7%），仅与初级医生相当。ChatGPT-4.1响应时间最短（0.95-17.19秒）。研究证实通用LLMs需特定微调方可临床应用。

摘要

研究目的

本研究进行了自然语言处理的可行性分析，旨在比较四种大型语言模型（LLMs）在以下两个方面上的表现：（a）重现性；（b）基于前列腺多参数磁共振成像（mpMRI）的结构化文本报告，对国际泌尿病理学会分级组（ISUP GGs）的预测准确性。

方法

研究首先使用LLMs仅根据mpMRI文本报告进行初始的ISUP GGs预测。随后进行了第二轮预测，其中纳入了临床信息。每轮预测重复三次以评估一致性。三名放射科医生独立完成了前两轮ISUP GGs预测，在审阅LLMs的预测结果后进行了第三轮评估。研究记录了响应时间。

结果

研究共纳入150名患者（中位年龄为69岁）。在不同ISUP GGs之间，观察到年龄、PSA水平、前列腺体积、PSA密度和PI-RADS评分存在统计学上的显著差异。这四种LLMs的表现良好至优秀（Kappa值介于0.671–0.861之间）。ChatGPT-4.1的响应时间最短（0.95–17.19秒）。此外，研究发现LLMs的预测准确性（32.7–50.0%）显著低于资深放射科医生（72.7–76.0%）和中级放射科医生（66.0–68.7%），但与初级放射科医生（59.3–65.3%）相当。

结论

通用型LLMs表现出优异的重现性。虽然ChatGPT-4.1在ISUP GGs预测和响应时间方面优于其他LLMs，但其预测准确性仍低于中级和资深放射科医生。因此，在将通用型LLMs应用于临床实践之前，需要对这项技术进行特定的微调。

研究目的

本研究进行了自然语言处理的可行性分析，旨在比较四种大型语言模型（LLMs）在以下两个方面上的表现：（a）重现性；（b）基于前列腺多参数磁共振成像（mpMRI）的结构化文本报告，对国际泌尿病理学会分级组（ISUP GGs）的预测准确性。

方法

研究首先使用LLMs仅根据mpMRI文本报告进行初始的ISUP GGs预测。随后进行了第二轮预测，其中纳入了临床信息。每轮预测重复三次以评估一致性。三名放射科医生独立完成了前两轮ISUP GGs预测，在审阅LLMs的预测结果后进行了第三轮评估。研究记录了响应时间。

结果

研究共纳入150名患者（中位年龄为69岁）。在不同ISUP GGs之间，观察到年龄、PSA水平、前列腺体积、PSA密度和PI-RADS评分存在统计学上的显著差异。这四种LLMs的表现良好至优秀（Kappa值介于0.671–0.861之间）。ChatGPT-4.1的响应时间最短（0.95–17.19秒）。此外，研究发现LLMs的预测准确性（32.7–50.0%）显著低于资深放射科医生（72.7–76.0%）和中级放射科医生（66.0–68.7%），但与初级放射科医生（59.3–65.3%）相当。

结论

通用型LLMs表现出优异的重现性。虽然ChatGPT-4.1在ISUP GGs预测和响应时间方面优于其他LLMs，但其预测准确性仍低于中级和资深放射科医生。因此，在将通用型LLMs应用于临床实践之前，需要对这项技术进行特定的微调。

联系信箱：

粤ICP备09063491号

摘要

研究目的

方法

结果

结论

研究目的

方法

结果

结论

热点排行