TuckerDreamer：基于Tucker的频域微调实现主题驱动的文本到图像生成

《Image and Vision Computing》：TuckerDreamer: Subject-driven text-to-image generation via Tucker-based frequency-domain fine-tuning

【字体：大中小】 时间：2026年06月19日 来源：Image and Vision Computing 4.2

编辑推荐：

　　郭宇泽|王斌上海大学通信与信息工程学院，中国上海摘要基于主题的文本到图像生成旨在根据参考主题和文本提示生成定制化图像。然而，现有方法面临三个主要挑战：（1）由于降维操作（例如将4D张量投影到2D空间），导致空间结构被破坏，从而使图像质量下降；（2）预训练模型中的噪声和不必要的细节

郭宇泽|王斌

上海大学通信与信息工程学院，中国上海

摘要

基于主题的文本到图像生成旨在根据参考主题和文本提示生成定制化图像。然而，现有方法面临三个主要挑战：（1）由于降维操作（例如将4D张量投影到2D空间），导致空间结构被破坏，从而使图像质量下降；（2）预训练模型中的噪声和不必要的细节会引入伪影，降低主题的真实性；（3）由于参考图像数量有限而导致的过拟合问题。为解决这些挑战，本文提出了一种名为TuckerDreamer的新颖微调方法，该方法具有三项创新点。首先，TuckerDreamer采用基于Tucker分解的微调策略，通过Tucker分解产生的核心保留空间结构信息，仅对因子矩阵进行选择性微调。其次，在频域微调中应用基于能量的掩码策略，仅保留能量最高的10%的组件，有效过滤掉无关组件。第三，在频域微调过程中引入一种新颖的动态自适应门控机制，通过熵值计算动态控制参数，从而减轻过拟合现象。在公共数据集上的大量实验表明，TuckerDreamer在基于主题的文本到图像生成任务中优于其他最先进的方法。此外，消融实验也证明了TuckerDreamer各组成部分的有效性。

引言

近年来，基于扩散模型的大规模文本到图像生成技术取得了显著进展，涌现出许多具备出色图像生成能力的预训练模型。尽管这些模型取得了成功，但在处理用户特定的主题时仍存在局限性，因为可用的参考图像有限，这就需要定制化的微调方法[1]、[2]。因此，基于主题的文本到图像生成成为了研究的热点[3]。该任务的目标是同时利用有限的参考图像和文本提示来控制图像的生成。例如，给定特定狗的参考图像及相应的文本提示，模型就可以生成新的情境描述（如狗在湖中游泳），这样的描述虽然与参考场景不同，但依然能保持主题特征的真实性。

目前的基于主题的文本到图像生成方法通常采用基于参考图像和文本提示的微调策略来优化预训练模型。这些微调方法使模型能够学习特定主题的特征，并将其与用户定义的关键词关联起来。在推理过程中，用户将这些关键词与文本提示一起作为输入传递给经过微调的模型，最终生成定制化图像。不过，现有的微调方法往往存在三个局限性。

首先，在基于主题的文本到图像生成中，已有研究表明2D卷积层在保持主题特征真实性方面起着重要作用。例如，Attndreambooth中的消融实验已经验证了2D卷积层的有效性[4]。这是因为，虽然交叉注意力层主要用于建立文本和视觉概念之间的语义关联，但2D卷积层则负责将这些概念转化为像素级特征。两者的协同作用对于实现高质量的基于主题的文本到图像生成至关重要。诸如DreamBooth[5]和SVDiff[6]等多种代表性方法都对交叉注意力层和2D卷积层进行了微调，进一步证明了这两者对整体性能的贡献。然而，许多现有的微调方法，比如SVDiff，在优化2D卷积层时常常采用降维操作。这通常意味着要将4D张量映射到2D空间中进行微调，之后再将其重塑为原来的4D形式。这一过程往往会导致空间结构信息的丢失，FLoRA[7]等研究也指出了这一问题。在Stable Diffusion这类文本到图像模型中，由于2D卷积层对图像生成过程非常重要，这个问题尤为突出。

其次，预训练模型中固有的噪声和细节也会对生成的图像质量造成影响。这不是某一种方法独有的缺陷，而是基于主题的文本到图像生成领域普遍存在的问题。Textual Inversion[8]这篇开创性论文指出，预训练模型中的固有噪声和通用细节可能会污染用户指定的自定义概念。DisenDreamer[9]进一步说明，这种污染主要体现在模型在预训练过程中学到的通用细节上，比如背景、姿态、风格等。这些干扰元素会在潜在嵌入空间中与目标概念紧密交织，最终降低生成图像的质量。

第三，由于参考图像数量有限而导致的过拟合也是基于主题的文本到图像生成中的一个难题，它会影响文本提示的准确性。具体来说，当可用的输入图像较少时，模型在微调过程中可能会从这些图像中学习过多的特定特征。这样一来，生成的图像就会与参考输入图像极为相似，往往会导致文本提示被忽视，进而大幅降低文本提示的准确性。此问题在以往的研究中也有记载。例如，DisenDreamer[9]就发现，像DreamBooth[5]这样的方法有时会忽略文本提示，过度拟合输入的主题。此外，Infusion[10]也正是为研究和探讨这一领域的过拟合问题而设计的。

为解决这些问题，本文提出了TuckerDreamer，这是一种用于基于主题的文本到图像生成的新型微调方法，它包含三个核心组成部分：

•
基于Tucker分解的微调策略，通过Tucker分解避免直接的降维操作，从而保留空间结构信息，同时大幅减少微调所需的参数数量；
•
在频域微调中采用的基于能量的掩码策略，通过仅保留能量最高的10%的组件，降低预训练模型中噪声和不必要细节的影响；
•
一种结合了基于熵值过滤和可训练门控的动态自适应门控机制，可在减轻过拟合的同时保持微调的灵活性。

据我们所知，TuckerDreamer是首个将Tucker分解应用于基于主题的文本到图像扩散模型微调的方法。与主要应用于大型语言模型微调的现有基于Tucker的方法，如FLoRA[7]不同，我们的方法为扩散架构专门设计了两种机制：基于能量的掩码策略和动态自适应门控机制。这两种机制旨在精确控制更新的强度和范围，从而解决过拟合问题，实现主题特征真实性和文本提示准确性的平衡。

本文在公共数据集上对TuckerDreamer进行了评估，将其性能与其他最先进的方法进行了比较。实验结果表明，TuckerDreamer在保持主题特征真实性和实现文本提示对齐方面都表现更优。此外，还进行了多项消融实验，以证明TuckerDreamer各组成部分的有效性。

章节片段

预备知识

本文提出的TuckerDreamer方法以预训练的Stable Diffusion作为基础的文本到图像生成模型。本节将介绍Stable Diffusion、基于主题的文本到图像生成以及Tucker分解的相关预备知识。

TuckerDreamer

本文提出的TuckerDreamer解决了上一节中提到的三个主要问题：（1）像SVDiff这样的有损压缩方法在微调过程中会通过将高维权重直接降维到二维空间，从而导致空间结构信息丢失；（2）预训练模型中存在的噪声和不必要的细节会在生成的图像中引入伪影，降低主题特征的真实性；（3）过拟合会导致输出结果与主题特征过度匹配，使得生成的图像

实验

本节展示了在公共的DreamBench数据集[5]上使用TuckerDreamer进行的实验结果。我们将TuckerDreamer的性能与其他最先进的方法进行了比较。随后，通过消融实验分析了TuckerDreamer中各关键组件的作用，验证了它们在实现均衡生成性能方面的必要性和有效性。

结论

总之，本文提出了一种名为TuckerDreamer的基于主题的文本到图像生成微调方法。该方法具有以下三项主要创新点。首先，与会导致空间结构信息丢失的降维方法不同，TuckerDreamer采用Tucker分解来进行降维，仅对因子矩阵进行微调，从而保留核心结构。由Tucker分解产生的核心能够保持原有的空间

修订声明

我们衷心感谢编辑和审稿人提出的富有洞察力和建设性的意见。这些意见极大地提升了我们手稿的质量，我们已经认真解决了审稿人提出的所有问题。所有意见的详细回复均位于附带的文档“对审稿人的回复”中。

针对审稿人对表2的反馈，我们已使用完全相同的条件重新进行了实验

CRediT作者贡献声明

郭宇泽：撰写——初稿、软件、方法论、研究实施、概念设计。王斌：撰写——审阅与编辑、指导、项目管理。

关于写作过程中生成式AI和AI辅助技术的声明

在准备本作品时，作者使用了OpenAI的ChatGPT和DeepSeek来检查语法和排版错误。在使用这些工具后，作者对内容进行了必要的审阅和修改，并对最终发表的内容负全责。

利益冲突声明

作者声明，他们不存在任何可能影响本文所述工作的已知财务利益或个人关系。

致谢

作者感谢所有在本文准备过程中提供宝贵反馈和支持的同事和审稿人。文中存在的任何错误或观点均为作者个人所持。本研究未获得公共、商业或非营利领域任何资助机构的专项资助。

摘要

引言