MSHLoRA:一种多阶段、多尺度的多样化适配框架,用于高效地对大型语言模型进行专家级适配
《Expert Systems with Applications》:MSHLoRA: A multi-stage multi-scale diverse adapter framework for efficient expert-level adaptation of large language models
【字体:
大
中
小
】
时间:2026年04月08日
来源:Expert Systems with Applications 7.5
编辑推荐:
提出MSHLoRA多阶段参数高效微调框架,通过G-CLARA算法筛选代表性样本、SIE-N-Wanda算法计算多尺度重要性权重矩阵,结合MFusionLoRA异构适配器融合机制,解决LoRA的低秩限制和收敛问题,在14个NLU和数学推理数据集上达到SOTA性能。
Xueguang Li | Junfeng Miao | Sahraoui Dhelim
大连理工大学,中国
摘要
大型语言模型(LLMs)已成为自然语言处理(NLP)和视觉-语言多模态研究中的主导框架。参数高效微调(PEFT)作为一种有效方法,能够在保持专家级性能的同时,使LLMs适应下游任务。然而,现有的PEFT方法在处理复杂任务时常常会出现性能下降和权重收敛问题。为了解决这些挑战,我们提出了MSHLoRA这一新颖的多阶段PEFT框架。在第一阶段,所提出的G-CLARA算法提取了一组高质量的簇中心样本。第二阶段使用稀疏重要性评估(SIE)和N-Wanda算法来生成多尺度重要性权重矩阵,从而提高了全局感知能力和局部精度。第三阶段,MFusionLoRA利用异构的多尺度适配器来缓解权重收敛和排名崩溃问题,提高了对复杂任务的适应能力。我们在涵盖自然语言理解(NLU)和算术推理任务的14个数据集上进行了广泛实验。MSHLoRA在NLU和算术推理任务上都取得了最先进(SOTA)的性能。例如,在AddSub数据集上,我们的方法比之前的SOTA方法LoRA提高了6.42%;在SVAMP数据集上,比DoRA提高了3%。进一步的消融研究证实了每个模块的必要性以及MSHLoRA在不同LLM架构(LLaMA、Gemma、OPT、BLOOM)和参数规模(1B、3B、8B、70B)下的鲁棒性。这些结果凸显了MSHLoRA在将LLMs适配到特定领域下游应用方面的巨大潜力。
引言
大型语言模型(LLMs)(Ciatto等人,2025年)基于Transformer架构(Luo等人,2025年)发展而来,由于其在文本生成、语义理解和推理方面的出色能力,已成为自然语言处理(NLP)(Dessí等人,2022年)和多模态领域(Guo等人,2024年;Hu等人,2025年)中的基础和通用技术框架,在众多下游任务中的表现可与人类专家媲美甚至超越。模型参数数量的增加通常与更强的能力和更好的整体性能相关,为其更广泛的应用奠定了坚实基础。然而,在训练过程中,LLMs需要大量数据来获取通用知识。当直接应用于垂直下游任务时,LLMs通常只能达到中等性能,远低于专家水平。这主要是因为下游任务特有的知识和数据分布并未内嵌在LLMs中。因此,全参数微调(FT)通过更新所有参数来适应下游知识,从而提高其在特定领域应用中的性能。但由于LLMs参数数量庞大,FT需要大量的计算资源和时间。这些限制往往对小型和中型企业(SMEs)(Yu等人,2025年)以及个人研究人员来说是一个障碍。此外,由于下游任务的数据集通常较小,FT(Ding等人,2023年)可能导致过拟合。
FT的局限性催生了参数高效微调(PEFT)(Ding等人,2023年)这一新的研究方向。这些方法通过冻结大部分参数并仅训练一小部分参数来使模型适应下游任务。这不仅减少了对硬件资源的依赖,还有效缓解了过拟合问题。在这些方法中,低秩适配(LoRA)(Hu等人,2022年)是最广泛使用的适应下游任务的技术之一。LoRA在保持原始LLM参数冻结的同时,添加了少量额外参数。其理论假设是下游任务适应所需的权重更新是低秩的(Jang等人,2024年),并通过仅训练额外参数来实现适应。然而,LoRA依赖于低秩假设(Jang等人,2024年),将可训练参数表示为两个低秩矩阵的乘积。尽管这一假设在许多情况下有效,但对于本质上复杂且不符合低秩结构的任务(如算术推理(Eshel等人,2015年;Banerjee等人,2025年)和代码生成(Yang等人,2024年)来说,它限制了模型的表达能力。因此,与FT相比,LoRA在这类复杂任务上的性能显著下降。这些局限性表明需要更加灵活和鲁棒的PEFT策略来应对下游应用的多样性。
为了解决LoRA的上述局限性,ReLoRA(Lialin等人,xxxx年)引入了一种创新的合并和重新初始化机制,该机制在微调期间定期将LoRA组件合并到LLMs中并重新初始化LoRA模块。这种方法本质上是对多个LoRA模块进行累积训练,从而有效提高了模型参数更新的整体秩。COLA(Xia等人,2024年)提出了另一种基于Frank-Wolfe算法的合并和重新初始化方法。然而,合并和重新初始化机制不可避免地会增加训练时间。MELoRA(Ren等人,2024年)指出,合并和重新初始化过程并不一定能保证秩的提高,因为在微调过程中LoRA模块之间可能会发生重叠。为了解决这个问题,MELoRA将LoRA模块分解为较小的mini-LoRAs,然后并行堆叠它们,并从理论上验证了这种策略在提高秩方面的有效性。尽管MELoRA可以在一定程度上提高秩,但它将完整输入分割成不重叠的部分,阻止了模型捕捉整体全局特征,并未能平衡全局感知和局部精度(Yuan等人,2025年)。此外,MELoRA只是简单地将模型分割成多个相同的mini-LoRAs。多个相同的mini-LoRAs可能导致权重收敛现象(Xiong等人,2024年)和排名崩溃(Dong等人,2021年)。因此,MELoRA在LoRA已经表现良好的下游任务上表现更好,但在LoRA表现较弱的任务上则表现较差。堆叠具有相同结构的LoRAs并不能增强下游任务的鲁棒性。
为了解决这些缺点,本文提出了一种名为MSHLoRA的多尺度异构集成LoRa适应方法。为了解决全局感知不足的问题,MSHLoRA引入了一种多阶段权重重要性评估策略,该策略结合了样本分布和原始权重信息作为关键重要性因素。在第一阶段,所提出的Group Clustering Large Applications(G-CLARA)算法选择最具代表性的样本集。在第二阶段,稀疏重要性评估(SIE)方法使用N-Wanda算法提取多尺度重要性权重矩阵。这一过程生成了多个不同尺度的重要性权重矩阵,融合这些多尺度重要性矩阵可以提高全局感知和局部精度。在第三阶段,为了缓解权重收敛和排名崩溃引起的鲁棒性问题,我们提出了一种具有混合结构类型的异构融合适配器方法,每个mini-适配器都有独特的结构。这些多样化的结构提供了不同的视角,有助于更好地适应各种下游任务,防止权重收敛,并使模型能够关注不同的关键特征点。我们在涵盖自然语言理解(NLU)和算术推理任务的14个数据集上进行了广泛实验。结果表明,所提出的MSHLoRA在NLU和算术推理任务上都取得了最先进(SOTA)的性能。此外,广泛的消融研究证实了MSHLoRA在不同大型模型架构和参数规模下的优越鲁棒性。
与类似方案的比较。MSHLoRA在两个关键方面不同于之前的尝试,超越了LoRA的低秩限制。与合并和重新初始化方法(如ReLoRA和COLA)相比,MSHLoRA不依赖于周期性的合并和重新初始化,从而避免了重复合并循环带来的额外训练开销。与同构堆叠/分区方法(如MELoRA)相比,MSHLoRA不强制输入分区的不重叠,而是使用多尺度重要性融合来更好地保持整体全局感知,同时保留局部精度;同时,异构mini-适配器的组合设计旨在降低多个相同mini-适配器中观察到的权重收敛和排名崩溃的风险。在局限性方面,MSHLoRA引入了额外的步骤来进行代表性样本选择和多尺度重要性估计。
总结来说,本文的贡献如下:
- 1.
我们提出了MSHLoRA,这是一种新颖的多阶段PEFT框架,用于克服LoRA在复杂下游任务中的低秩限制。据我们所知,这是首次提出多尺度异构适配器融合方法。
- 2.
我们引入了一种数据和权重感知的多阶段重要性评估流程,包括用于代表性样本选择的G-CLARA和用于计算多尺度权重重要性矩阵的SIE与N-Wanda算法,这有助于平衡全局感知和局部精度。
- 3.
我们提出了一种具有混合结构类型的异构mini-适配器融合机制,提供多视图特征提取和互补的更新方向,从而缓解权重收敛和排名崩溃问题,并提高了任务和模型家族的鲁棒性。在涵盖NLU和算术推理的14个数据集上的广泛实验进一步证明了MSHLoRA在多个LLM架构和参数规模上的有效性和鲁棒性。
相关工作
相关工作
在本节中,我们回顾了基于LoRA的PEFT方法,并总结了应对LoRA低秩限制的代表性工作。我们将讨论分为理论分析(第2.1节)和超越低秩限制的方法(第2.2节),这激发了我们方法的设计灵感。LoRA(Hu等人,2022年)作为一种广泛采用的LLMs和其他基础模型的参数高效微调技术而兴起。其广泛应用归功于其
方法
本节介绍了所提出的MSHLoRA框架。我们首先概述了整个三阶段流程(第3.1节),然后详细介绍了通过G-CLARA进行代表性样本选择(第3.2节)、通过SIE与N-Wanda进行多尺度重要性估计(第3.3节),以及通过MFusionLoRA进行异构适配器融合(第3.4节)。
实验
本节在多种NLU和算术推理基准测试中评估了MSHLoRA。我们首先介绍实验设置和基线,然后报告与最先进方法的比较、计算成本分析和消融研究。
讨论
本节旨在通过强调我们方法的优点和局限性,以及提出进一步研究的可行途径,提供一个平衡的评估。我们将本节分为性能分析(第5.1节)、局限性(第5.2节)和未来方向(第5.3节)。
结论
在本文中,我们提出了一种新颖的多阶段参数高效微调方法MSHLoRA。在第一阶段,MSHLoRA使用所提出的G-CLARA算法高效选择一组高质量的簇中心样本。在第二阶段,基于G-CLARA的SIE方法评估多个尺度的重要性权重矩阵,这对于提高全局感知和局部精度至关重要。在第三阶段,MFusionLoRA整合了多个异构
作者贡献声明
Xueguang Li:概念化、方法论、软件、撰写——原始草稿。Junfeng Miao:软件、验证、形式分析、调查、可视化、撰写——审阅和编辑。Sahraoui Dhelim:资源、数据管理、项目监督、资金获取、撰写——审阅和编辑。
利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号