文本引导的去学习：通过分层掩蔽机制在稳定扩散模型中实现遗忘效果

《Neurocomputing》：Text-guided unlearning: Realizing forgetting in stable diffusion via hierarchical masking mechanism

【字体：大中小】 时间：2026年05月26日 来源：Neurocomputing 6.5

编辑推荐：

　　曾永强|郑登|刘万里摘要机器去学习在负责任地部署生成模型方面发挥着关键作用，有助于缓解隐私风险、伦理问题以及涉及有害或敏感视觉内容的滥用问题。然而，大多数现有的去学习方法依赖于对生成模型的大规模参数更新或结构修改，导致巨大的计算开销，并且经常降低模型的泛化能力和生成效果。此外，由

曾永强|郑登|刘万里

摘要

机器去学习在负责任地部署生成模型方面发挥着关键作用，有助于缓解隐私风险、伦理问题以及涉及有害或敏感视觉内容的滥用问题。然而，大多数现有的去学习方法依赖于对生成模型的大规模参数更新或结构修改，导致巨大的计算开销，并且经常降低模型的泛化能力和生成效果。此外，由于在概念去除和功能保留之间缺乏细致的平衡，非目标内容往往会受到不必要的降解，影响图像质量、多样性和语义准确性。在这项工作中，我们提出了文本引导去学习（Text-Guided Unlearning，简称TGU），这是一种用于文本到图像扩散模型中概念去除的轻量级且有效的框架。我们的主要见解是，扩散模型中的语义条件主要是通过文本编码器注入的，而UNet主要作为条件生成器，由这些嵌入驱动。因此，可以通过修改文本嵌入空间中的概念表示来从源头上抑制不希望出现的视觉概念，而无需改变生成模型本身。基于这一观察，TGU通过仅微调文本编码器来执行选择性去学习，并结合了一种分层掩码机制，该机制能够结构化地识别与概念相关的组件，并采用双重目标优化策略来平衡遗忘和保留目标之间的梯度冲突。这种设计能够在保持模型生成高质量非目标图像的能力的同时，精确地破坏有害的语义对齐。广泛的实验表明，与最先进的方法相比，TGU在去学习性能上具有竞争力或更优的表现，同时显著降低了计算成本，并保持了强大的生成质量和语义一致性。

警告：本文包含可能具有冒犯性的模型输出。

引言

扩散模型（DMs）的最新进展[1]、[2]、[3]、[4]使它们成为文本到图像生成的主要范式，得益于提供丰富视觉语义和高保真的大规模数据集。然而，这些数据集不可避免地包含暴力、露骨或其他不当内容，导致DMs在恶意提示下内化有害概念并生成不适宜工作（NSFW）的图像。早期的安全解决方案依赖于外部过滤器或事后分类器[5]、[6]，但这些方法无法调节内部的生成过程，因此在不同的提示变化下缺乏鲁棒性。这一局限性促使人们采用机器去学习（Machine Unlearning，简称MU）[7]、[8]来直接从模型中去除不希望出现的概念。

现有的MU方法，包括微调、基于梯度的干预和特征扰动[9]、[10]、[11]，比后处理方法提供了更直接和可控的概念抑制。然而，它们面临一个根本挑战：在保持生成质量和模型功能的同时实现有效的概念去除。大多数方法作用于UNet主干网络，该网络包含了模型的大部分参数。因此，它们会产生巨大的计算开销，并且经常对非目标内容造成不必要的干扰，导致语义漂移和图像保真度下降。尽管最近的参数高效方法[12]、[13]试图通过限制对选定参数的更新来缓解这一问题，但它们仍然会修改生成模型，并且对不稳定性及超参数配置敏感。

为了解决这些限制，我们提出了文本引导去学习（Text-Guided Unlearning，简称TGU），这是一个通过干预扩散模型的语义条件路径来去除目标概念的轻量级框架。这一设计的灵感来自于文本嵌入是语义概念注入生成过程的主要接口；因此，在这一阶段破坏概念表示可以有效地防止它们在整个去噪过程中的传播。

与作用于生成模型的现有参数高效去学习方法不同，TGU将概念清除重新定义为条件表示解耦问题。TGU不是通过UNet中的间接参数扰动来抑制概念，而是通过在文本嵌入空间中弱化特定概念的表示来实现源级去学习，从而破坏指导图像合成的语义控制信号。

基于这种设计，TGU结合了结构化的参数选择和自适应优化，以实现精确和稳定的概念去除。具体来说，该框架包括三个关键组成部分：

(1)

一种语义级干预机制，选择性地微调文本编码器以在源头上去除特定概念的表示；

(2)

一种分层掩码机制，进行逐层重要性聚合，实现结构化和稳定的参数选择；

(3)

一种自适应平衡策略，用来缓解遗忘和保留目标之间的梯度冲突，确保稳定的优化过程。

这些组件共同实现了精确和高效的概念去学习，同时保持了生成保真度，这一点通过在Stable Diffusion上的实验得到了验证。TGU有效地去除了与裸露和对象相关的概念，同时保持了高图像质量和语义一致性，实现了去学习效果、生成性能和计算效率之间的更好平衡（见图1、图2、图3）。

小节片段

机器去学习

随着数据隐私法规（如欧盟的通用数据保护条例（GDPR）[14]等）的日益严格，MU已成为构建可信AI系统的关键技术。MU的主要目标是安全高效地去除预训练模型中特定数据、类别或概念的影响。这种能力不仅是GDPR等法规下的法律要求，也是维护用户信任的关键。

方法

大多数现有的扩散模型去学习方法主要是通过直接修改UNet去噪网络来抑制目标概念。由于UNet包含了模型的大部分参数，这些方法不可避免地会产生巨大的计算开销，并且经常对非目标内容的生成造成不必要的干扰。此外，这些方法通常依赖于非结构化的参数更新，难以精确控制

实验

本研究系统地评估了TGU方法在多个代表性场景下的表现，评估任务专注于去除与特定类别或概念相关的图像。研究旨在回答三个核心研究问题：（1）TGU能否有效消除

数据集对扩散模型的影响？（2）在实现目标概念去除的同时，TGU能否保持扩散模型的原始生成效果？（3）TGU是否表现出高

讨论

结果表明，TGU为扩散模型中的概念去除提供了一个有效且高效的框架。通过更新文本编码器而不是生成模型本身，TGU实现了轻量级和结构化的概念去除，同时保持了竞争优势的生成质量。在NSFW（不适宜工作）和对象级去学习任务中，TGU在概念抑制、功能保留、鲁棒性和计算效率之间取得了良好的平衡。

结论

在本文中，我们提出了TGU，这是一种用于扩散模型的轻量级概念去学习框架，通过结构化更新文本编码器来实现有针对性的遗忘。通过结合分层掩码和自适应目标平衡，TGU实现了有效的概念抑制，同时保持了竞争优势的生成质量，并减少了计算开销。在NSFW和对象级去学习任务上的实验结果进一步表明，TGU在各方面都取得了良好的平衡

CRediT作者贡献声明

曾永强：负责撰写——初稿、方法论、形式分析、概念化。郑登：负责撰写——审阅与编辑。刘万里：负责撰写——审阅与编辑。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：

曾永强报告称获得了安徽省教育部门的财务支持（2022AH50120）。如果有其他作者，他们声明没有已知的财务利益或个人关系可能会影响本文所述的工作。

致谢

作者感谢安徽大学的高性能计算平台为这项研究提供了必要的计算资源。这项工作得到了安徽省教育部门的研究项目（2022AH50120）的支持。我们还要衷心感谢我们的导师和研究团队成员在整个研究过程中的宝贵指导、深入讨论和建设性建议。

写作过程中生成的AI和AI辅助技术的声明

在撰写过程中...

刘万里分别在广西大学和安徽大学获得了计算机科学与技术的硕士和博士学位。2013年8月至2014年7月，她是凤池大学信息工程与计算机科学系的博士后研究员。自2023年5月以来，她担任安徽大学计算机科学与技术学院的副教授。她目前的研究兴趣包括图像处理、数据隐藏等。

摘要

引言

小节片段

机器去学习

方法

实验

讨论

结论

CRediT作者贡献声明

利益冲突声明

致谢

写作过程中生成的AI和AI辅助技术的声明

热点排行