Med-LLaMA3：通过大语言模型的参数高效微调提升医学问答能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Applied Sciences》：Med-LLaMA3: Advancing Medical Question-Answering Through Parameter-Efficient Fine-Tuning of Large Language Models

【字体：大中小】 时间：2026年06月19日 来源：Applied Sciences 2.5

编辑推荐：

　　摘要

摘要

尽管近年来取得了进展，医学问答系统在处理领域特定推理和数据效率方面仍存在难题。本文介绍了Med-LLaMA3，这是一系列通过参数高效微调技术开发的医学大型语言模型，其基于LLaMA-3.1（80亿参数）和LLaMA-3.2（10亿及30亿参数）架构，并采用了量化低秩适配（QLoRA）以及4位量化的低秩适配（LoRA）技术。除了模型训练之外，本研究还做出了以下贡献：（1）建立了一个规范化的数据集筛选分类体系（来源类型×临床详细程度×任务格式），并通过来源类别的对比实验证明，多源数据结合能带来比单一来源更显著的性能提升；（2）对LLaMA-3系列模型在医学领域的低秩适配性能进行了系统性分析，发现其在秩数达到128之前性能持续提升，且没有出现性能停滞现象；（3）通过McNemar检验和95%自助法置信区间进行了统计验证。我们整理了一个包含150多万条样本的医学指令数据集，这些样本涵盖了医疗检查、临床对话以及生物医学文献等内容。我们的方法仅需训练基础模型约4%的参数，且与以往在医学领域应用的参数高效方法相比，能够在大幅降低内存占用的前提下实现与完整微调相当的性能。在每个提示中提供五个上下文示例进行测试时，80亿参数的模型在“大规模多任务语言理解”基准测试的八个医学领域子任务中的平均准确率为75.71%；在医学多项选择题基准测试MedMCQA中，该模型的表现显著优于未经修改的LLaMA-3.1-8B-Instruct版本，而在经过Bonferroni校正后，它在三个子任务（临床知识、医学遗传学和营养学）中的表现也具有显著性，另外两个子任务在校正前则表现出显著性。通过对100份医院出院总结进行的结构化命名实体识别测试（宏观平均F1值为0.94；两位标注者的一致性为

），进一步证明了这类模型在临床文本处理方面的实用性。此外，一项安全防护试验表明，通过上下文消歧预处理，可在30个测试案例中将最严重的缩写歧义错误率从30%降低到10%。这些结果表明，参数高效微调技术能够在仅训练模型约4%的参数、并将内存使用量减少约75%的情况下，打造出高性能的医学大型语言模型，从而使得在成本较低的普通硬件上也能开发此类模型。

联系信箱：

粤ICP备09063491号

摘要

热点排行