Med-LLaMA3:通过大语言模型的参数高效微调提升医学问答能力
《Applied Sciences》:Med-LLaMA3: Advancing Medical Question-Answering Through Parameter-Efficient Fine-Tuning of Large Language Models
【字体:
大
中
小
】
时间:2026年06月19日
来源:Applied Sciences 2.5
摘要
尽管近年来取得了进展,医学问答系统在处理领域特定推理和数据效率方面仍存在难题。本文介绍了Med-LLaMA3,这是一系列通过参数高效微调技术开发的医学大型语言模型,其基于LLaMA-3.1(80亿参数)和LLaMA-3.2(10亿及30亿参数)架构,并采用了量化低秩适配(QLoRA)以及4位量化的低秩适配(LoRA)技术。除了模型训练之外,本研究还做出了以下贡献:(1)建立了一个规范化的数据集筛选分类体系(来源类型×临床详细程度×任务格式),并通过来源类别的对比实验证明,多源数据结合能带来比单一来源更显著的性能提升;(2)对LLaMA-3系列模型在医学领域的低秩适配性能进行了系统性分析,发现其在秩数达到128之前性能持续提升,且没有出现性能停滞现象;(3)通过McNemar检验和95%自助法置信区间进行了统计验证。我们整理了一个包含150多万条样本的医学指令数据集,这些样本涵盖了医疗检查、临床对话以及生物医学文献等内容。我们的方法仅需训练基础模型约4%的参数,且与以往在医学领域应用的参数高效方法相比,能够在大幅降低内存占用的前提下实现与完整微调相当的性能。在每个提示中提供五个上下文示例进行测试时,80亿参数的模型在“大规模多任务语言理解”基准测试的八个医学领域子任务中的平均准确率为75.71%;在医学多项选择题基准测试MedMCQA中,该模型的表现显著优于未经修改的LLaMA-3.1-8B-Instruct版本,而在经过Bonferroni校正后,它在三个子任务(临床知识、医学遗传学和营养学)中的表现也具有显著性,另外两个子任务在校正前则表现出显著性。通过对100份医院出院总结进行的结构化命名实体识别测试(宏观平均F1值为0.94;两位标注者的一致性为),进一步证明了这类模型在临床文本处理方面的实用性。此外,一项安全防护试验表明,通过上下文消歧预处理,可在30个测试案例中将最严重的缩写歧义错误率从30%降低到10%。这些结果表明,参数高效微调技术能够在仅训练模型约4%的参数、并将内存使用量减少约75%的情况下,打造出高性能的医学大型语言模型,从而使得在成本较低的普通硬件上也能开发此类模型。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号