生成式人工智能(Generative Artificial Intelligence, GenAI)模型在医疗健康领域的应用——一项范围综述(Scoping Review)
《BMC Artificial Intelligence》:Use of generative artificial intelligence models in healthcare – a scoping review
编辑推荐:
背景:本范围综述旨在识别并评估预训练(pre-trained)、微调(fine-tuned)及多模态生成式人工智能(Generative Artificial Intelligence, GenAI)模型在医疗健康领域的应用,重点关注其应用领域、报告的性能基准
背景:本范围综述旨在识别并评估预训练(pre-trained)、微调(fine-tuned)及多模态生成式人工智能(Generative Artificial Intelligence, GenAI)模型在医疗健康领域的应用,重点关注其应用领域、报告的性能基准(benchmarks)及环境影响。方法:研究人员在PubMed、Scopus及Cochrane Central Register of Controlled Trials数据库中进行了全面检索,并辅以手工检索。研究根据纳入标准选取聚焦GenAI模型医疗应用的文献,遵循PRISMA-SCR(Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews)指南,并综合提取模型类型、任务、准确率及碳足迹(carbon footprint)数据。结果:初始检索得到7351篇研究,最终24篇符合纳入标准。模型被用于分类(classification)、医学视觉问答(Medical Visual Question Answering, VQA)及对话任务(conversational tasks),报告准确率范围为70.6%~99.9%。相比预训练模型,微调模型在更短训练时间内表现出更优准确率。仅1项研究报告了碳足迹,显示环境信息披露存在显著缺口。多模态AI模型虽占比较少,但在处理复杂医疗数据方面展现出良好前景。结论:GenAI模型在医疗健康领域具重要潜力。但本综述揭示多模态模型利用不足及碳足迹报告缺失的问题。未来研究应聚焦优化特定任务的GenAI应用,同时关注其环境影响。
一、研究解读
《Use of generative artificial intelligence models in healthcare – a scoping review》发表于《BMC Artificial Intelligence》。本研究是一项遵循PRISMA-SCR指南的范围综述(Scoping Review)。目前生成式人工智能(Generative Artificial Intelligence, GenAI)如大语言模型(Large Language Models, LLMs)及多模态模型在通用领域快速发展,但直接应用于医疗场景面临医学数据非结构化、专业性强等挑战,且关于不同类型GenAI(预训练、微调、多模态)在医疗中的应用对比、性能基准及训练带来的环境影响尚缺乏系统性梳理,因此研究人员开展此项综述以填补空白。
主要关键技术方法:研究人员于2024年8月在PubMed、Scopus及Cochrane Central Register of Controlled Trials(CENTRAL)数据库进行系统检索,检索词涵盖pre-trained、fine-tuned及multimodal GenAI模型在healthcare中的应用,并辅以Google Scholar手工检索及参考文献滚雪球法(snowballing)。纳入原始同行评审或预印本、英文、近10年内聚焦医疗领域GenAI应用的文献,排除综述、社论及非GenAI模型(如传统CNN)。由两名研究者独立筛选题目、摘要及全文,分歧由第三人仲裁。采用叙述性综合法(narrative synthesis)提取并整理模型类型(预训练/微调/多模态)、任务(分类/VQA/对话/语义相似度)、性能指标、基准数据集及碳足迹等信息。
研究结果:
搜索结果与研究纳入(Search results and study inclusion):初始检出7351篇,去重后7042篇,经题目与摘要初筛及全文复筛,数据库来源纳入11篇,手工检索补充13篇,最终24篇研究纳入综述。
研究特征(Study characteristics):纳入研究发表时间为2019—2024年,多来自中国(n=6)和美国(n=6),部分为多中心研究(n=6)。数据来源多样,含视觉问答数据集(Visual Question Answering, VQA,n=6)、PubMed文本(n=5)、电子健康记录(Electronic Health Records, EHRs,n=5)及其他专科数据库。样本量文本类从2054句对至36950余条临床缩写,图像类从149000张至1500万张图文对。
预训练与微调模型(Pre-trained and fine-tuned models):13项研究采用预训练后于临床大数据集上微调的模型完成分类与对话任务。分类任务(Classification tasks)中5项研究涉及疾病严重度及科室预测,报告准确率86%~93%(Med-PLM最高),1项报告F1值0.99,常用基础架构含BERT及RoBERTa。对话任务(Conversational tasks)中8项研究用于医学VQA及医学报告生成(Medical Report Generation, MRG),准确率79%~89.5%(Bio-MedGPT最高)。
微调模型(Fine-tuned models):11项研究仅对已有GenAI做领域微调。分类任务中4项用Clinical KB-BERT等,最高准确率99.53%,F1值范围0.54~0.99。对话任务中6项用于医疗咨询与答疑,准确率70.6%~99.9%(眼科OphGLM达99.9%),均注明基础模型如LLaVa、PaLM-2、Mistral-7B-v0.1。语义相似度任务(Semantic similarity tasks)中1项用ClinicalBERT_all结合图卷积网络评估临床文本相似度,Pearson相关系数为0.882。
多模态模型(Multimodal models):8项研究整合图像与文本信息。报告准确率80%~99.9%(OphGLM最高),未报告者给到F1=0.545及Precision=0.467。多模态模型在图文联合推理中表现良好。
图形处理器(Graphics Processing Units, GPUs)使用情况与碳足迹:14项研究报告使用GPU加速,训练时长12~552小时。仅1项研究(MEDITRON-70B)披露碳排放为486 kgCO2,其余23项未报告。
基准测试(Benchmarks):17项使用标准基准如VQA-RAD、SLAKE(各n=5)及MedQA(n=4),7项使用自定义基准。
比较分析(Comparative analysis):医疗GenAI应用分三类——分类、对话/问答、语义相似度检索,对话任务最常见(14/24)。微调模型较从头预训练耗时更短、任务性能更优;多模态模型虽少但图文任务表现稳定。
讨论部分总结:通用GenAI(如ChatGPT、Gemini)因医学数据特殊性在医疗中精度有限,领域专用预训练及微调模型可提升性能。本综述显示微调可用更少资源获更高准确率(例:MEDITRON-70B预训练332 h于128块A100 GPU仅52% MedQA准确率;Meerkat-7B微调36 h于8块A100 GPU达70.6%)。多模态模型适配异质医疗数据但尚未普及。绝大多数研究未报碳足迹,建议未来强制披露以评估可持续性。推荐统一采用MedQA等标准基准减少异质性,注意训练测试数据污染导致性能高估风险,以及EHR等敏感数据的隐私与再识别(re-identification)风险。纳入模型多处于内部验证阶段,需外部验证与前瞻性临床试验方可临床部署。局限含仅检三个库、未做荟萃分析(meta-analysis)、排除检索增强生成(Retrieval-Augmented Generation, RAG)及提示工程(prompt engineering)。
结论(Conclusion)翻译:本范围综述强调了人工智能特别是预训练与微调模型在医疗健康中的关键作用,同时指出能更好整合异质数据类型之多模态模型利用不足。然而,模型训练的高能耗引发环境担忧,凸显了报告碳足迹之必要性。GenAI在医疗中的推进令人期待,但须审慎考量模型训练策略以确保其有效且可持续的应用。