综述:动态触发后门攻击以及在联邦学习中基于两阶段快速傅里叶变换(FFT)的防御机制

《Internet of Things》:Dynamic trigger backdoor attacks and a two stage FFT based defense in federated learning

【字体: 时间:2026年04月24日 来源:Internet of Things 7.6

编辑推荐:

  联邦学习中的动态触发后门攻击及客户端防御方法研究。提出DTBA动态生成触发位置与形状,提升攻击隐蔽性;设计FedFAT结合FFT频域滤波和客户端对抗训练,无需可信服务器即可有效防御。实验表明FedFAT对DTBA及现有攻击成功率均压低至5%以下,同时保持主任务模型精度。

  
Binghuang Huang | Changli Zhou | Yuqing Zhang
华侨大学计算机科学与技术学院,厦门,361021,福建省,中国

摘要

联邦学习作为一种分布式机器学习范式,允许多方协作训练全局模型,同时避免原始数据共享。然而,其分布式特性使其容易受到后门攻击的严重威胁。现有的后门攻击主要依赖于具有固定位置和形状的触发器,这种双重单一性构成了一个关键漏洞,使得攻击容易被检测到。为了解决这个问题,本文提出了一种新颖的动态触发器后门攻击(DTBA)方案。其核心创新在于引入了双重动态机制:根据输入图像动态生成触发器的位置和形状。这种方法显著增强了触发器的多样性和适应性,提高了攻击的隐蔽性,同时提高了对各种防御措施的抵抗力。此外,现有的基于服务器的后门检测方法存在固有局限性:它们难以可靠地区分良性更新和恶意更新,从而大大降低了检测准确性,而且其有效性严格依赖于中央服务器的完全可信度。为了解决这一挑战并有效防御DTBA,本文进一步提出了一种客户端本地防御方法,该方法结合了快速傅里叶变换(FedFAT)对抗性训练。这种方法放弃了传统的被动服务器端检测机制,而是在本地客户端训练期间实施主动防御,从而消除对可信服务器的依赖。实验结果表明,FedFAT在所有测试场景中始终将后门攻击的成功率抑制在5%以下,同时保持了主要任务模型的准确性,充分证明了其有效性和实际价值。

引言

联邦学习(FL)是一种新兴的分布式机器学习范式,它允许多方在不共享原始数据的情况下协作训练高质量的全局模型。它有效地解决了数据孤岛和隐私保护之间的冲突,实现了无需数据共享的知识共享。目前,FL被广泛应用于构建去中心化应用系统,例如基于区块链的疫苗供应链管理、智能环境中的无人机协作计算以及保护隐私的智能手机推荐系统[1]、[2]、[3]。尽管FL在推进安全、保护隐私的分布式应用方面具有显著优势,但其分布式架构使其面临严重的安全威胁,其中后门攻击尤为突出。在这种攻击模式下,恶意客户端将精心设计的隐蔽触发器(如特定像素模式)植入本地训练数据中,诱导全局模型学习到隐藏的关联。攻击者的核心目标不是破坏整体模型性能,而是建立一个隐蔽的“契约”——使模型对携带触发器的输入样本产生有针对性的误分类(例如,将带有特定条纹的停车标志误识别为限速标志)。由于这类攻击在正常数据上表现良好,只有在遇到特定触发器模式时才会暴露错误,因此它们的隐蔽性极高。这使它们成为FL系统中最重要的安全威胁之一,对安全构成重大风险[4]。
因此,探索新的后门攻击和防御方法对于确保联邦学习系统的安全性至关重要。一方面,深入研究后门攻击技术有助于揭示它们的潜在威胁,为设计有效的防御机制提供理论基础。另一方面,开发创新的防御方法可以提高联邦学习系统的鲁棒性,保护模型安全。
近年来,提高攻击隐蔽性已成为后门攻击研究的核心目标。Xie等人[5]提出了分布式后门攻击(DBA)方法,其核心在于通过每个恶意客户端植入本地触发器来实现隐蔽性。更重要的是,这些本地触发器的组合——全局触发器——在全局模型上的攻击性能明显优于集中式攻击。Nguyen等人[6]探索了使用对抗性扰动生成隐蔽触发器的方法。在此基础上,Li等人[7]进一步提出了一种双域后门攻击,通过操纵幅度谱的低频成分并引入微妙的失真场来构建高度隐蔽的触发器。
尽管上述研究显著提高了攻击的隐蔽性和实用性,但触发器的固有单一性——包括固定位置和统一形状——仍然是一个关键弱点,使得它们容易被检测和消除(例如,Wang等人[8]提出的基于逆向工程的防御方法)。为了解决这个问题,本文提出了一种创新的动态触发器后门攻击方案。其核心“动态”特性体现在两个方面:首先,触发器的嵌入位置不是固定的,而是根据输入图像内容使用注意力U-Net[9]、[10]、[11]、[12]动态生成的。其次,触发器本身的具体形式也不是预先定义的,而是根据输入图像使用深度卷积GAN(DCGAN)[13]动态生成的。这种双重动态机制有效地确保了触发器模式的高多样性。它不仅显著提高了攻击的隐蔽性,使得检测和防御更加困难,还通过图像自适应触发器生成策略提高了对各种防御措施的抵抗力。
同时,FL中的后门防御研究主要集中在基于相似性分析的检测方法[14]、[15]、[16]、[17]、[18]上。这些方法的核心在于区分良性更新和恶意更新。虽然对某些后门攻击有效,但高度隐蔽的后门攻击可以被精心设计,使得提交的模型更新看起来“类似于”良性更新。这使得对抗高度隐蔽的后门攻击方法变得困难,导致防御机制无法可靠地区分良性更新和恶意更新,从而大大降低了检测准确性。这表现为高误分类率:良性客户端可能被误认为是恶意客户端,恶意客户端也可能被误认为是良性客户端。更严重的是,所有检测方法都有一个固有的缺陷:它们需要服务器端部署,其有效性严格依赖于中央服务器的完全可信度。鉴于基于相似性的防御方法的局限性(高误分类率、依赖可信服务器),一个关键问题出现了:
是否存在一种防御机制,可以在不要求完全信任中央服务器的情况下有效降低后门攻击的成功率?
为了解决这一挑战,本文提出了一种结合对抗性训练和快速傅里叶变换(FedFAT)的客户端防御方法。这种方法不是依赖服务器端的被动检测,而是在客户端部署本地训练的防御机制(假设超过50%的客户端是良性的)。通过操纵本地数据或本地模型的训练过程,它生成了可靠的干净模型,从而消除了对可信服务器的依赖。具体来说,在FL训练阶段,FedFAT采用对抗性训练机制。它通过在良性客户端的数据中嵌入动态触发器来构建对抗性样本,而不改变它们的原始标签。这些样本参与模型更新,训练模型忽略潜在的后门触发器模式,从而实现对恶意干扰的不敏感。然而,尽管对抗性训练在客户端层面提供了保护,但每轮FL中参与客户端的随机选择仍可能导致恶意客户端超过50%。这显著增加了该轮次中聚合全局模型的后门攻击成功率。为了克服这一限制,我们在模型推理阶段引入了一种新颖且有效的图像预处理方法:使用快速傅里叶变换将图像从空间域转换为频率域。这种方法在模型分类之前有效去除了图像中的触发器,从而降低了后门攻击的成功率。广泛的实验验证表明,这种防御方法不仅有效对抗了现有的后门攻击(如DBA和CerP),还对本文提出的新型动态触发器后门攻击表现出强烈的抑制效果。实验结果表明,在对抗非自适应后门攻击时,该方法可以将后门攻击的成功率降低到6%以下,同时对主要任务的成功率影响最小。
总体而言,我们的贡献总结如下:
  • 在FL场景中,我们提出了DTBA,一种动态触发器后门攻击方法。该方法使用注意力U-Net动态生成触发器的嵌入位置,并通过DCGAN动态生成触发器本身,最终形成嵌入的触发器。DTBA旨在根据图像生成动态触发器,解决了现有后门攻击方法的常见弱点——即触发器的统一性和易检测性。
  • 在FL训练阶段,我们采用基于本地训练的防御机制。通过引入对抗性训练机制,我们在良性客户端数据中嵌入动态触发器,同时保留原始标签。通过在训练阶段训练模型忽略潜在的后门触发器模式,该方法提高了其对后门攻击的有效性,并有效克服了传统检测方法的固有缺点,如高误报率和依赖中央可信权威。
  • 在模型推理阶段,我们引入了快速傅里叶变换作为图像预处理技术。通过应用频率域过滤,我们有效消除了图像中嵌入的潜在触发器,从而降低了后门攻击的成功率。这种方法有效缓解了FL中由于客户端随机选择而产生的安全风险。
  • 我们在MNIST、CIFAR-10和GTSRB数据集上评估了我们的方法。实验结果表明,即使在现有防御措施下,所提出的后门攻击方法的攻击成功率也超过了90%。同时,我们的防御方法有效缓解了现有攻击和DTBA的攻击,将其攻击成功率降低到5%以下。

章节片段

联邦学习中的后门攻击

后门攻击是深度学习安全领域中一个新兴且快速发展的研究领域,对深度神经网络的训练过程构成了重大威胁。这类攻击旨在通过各种手段将后门注入目标模型,使受损模型在正常样本上表现良好,同时对包含特定触发器的输入进行错误分类,使其呈现攻击者选择的目标标签。
在FL环境中,后门攻击已经引起了广泛关注

DTBA

在本节中,我们提出了DTBA,一种新颖的后门攻击方法,涉及生成触发器模式和触发器掩码,如图1所示。

FedFAT

在本节中,我们提出了FedFAT,一种结合对抗性训练和FFT的新颖后门防御方法,如图2所示。

实验设置

数据集和模型。我们采用了与相关工作类似的设置,专注于使用三个流行数据集的计算机视觉任务:MNIST [37]、CIFAR-10 [38]和GTSRB [39]。数据描述、参数设置和模型使用情况分别在表1和表2中总结。
基准防御。我们根据它们的源代码实现了四种经典的FL聚合和后门防御算法,如下:
  • FedAvg [40]:使用平均算法聚合所有梯度,被认为是非防御性的
  • 在SOTA防御下的DTBA比较评估

    我们首先在不同的防御机制下评估了各种攻击的性能,并与现有攻击(包括DBA [5]和CerP [22])进行了比较实验。所有实验都在相同条件下进行,重复三次,使用不同的随机种子,结果以“平均值±标准差”表示。如表4所示,在MNIST和GTSRB数据集上,DTBA对Scope防御方法的攻击效果最好

    结论

    通过对现有基于检测的防御方法的分析,我们发现它们普遍面临高误报率的挑战。更根本的是,这些方法存在一个固有局限性:它们需要服务器端部署,其有效性高度依赖于中央服务器的完全可信度。为了解决这些问题,本文提出了FedFAT方法——一种结合对抗性训练和快速傅里叶变换的客户端防御方法。

    CRediT作者贡献声明

    Binghuang Huang:撰写——原始草案、方法论、调查、概念化。Changli Zhou:撰写——审阅与编辑、验证、监督、概念化。Yuqing Zhang:撰写——审阅与编辑、概念化。

    利益冲突声明

    作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号