《Neurocomputing》:UGD-IML: A unified generative diffusion-based framework for constrained and unconstrained image manipulation localization
编辑推荐:
图像篡改定位(Image Manipulation Localization, IML)旨在预测篡改图像中伪造区域的像素级掩码。现有大多数 IML 方法基于深度学习,其性能高度依赖大规模高质量数据集。然而,像素级标注成本高昂,限制了当前数据集的规模与多样性。为
图像篡改定位(Image Manipulation Localization, IML)旨在预测篡改图像中伪造区域的像素级掩码。现有大多数 IML 方法基于深度学习,其性能高度依赖大规模高质量数据集。然而,像素级标注成本高昂,限制了当前数据集的规模与多样性。为克服数据稀缺问题,研究中提出了受约束图像篡改定位(Constrained Image Manipulation Localization, CIML),通过原始图像–伪造图像对自动生成掩码。尽管输入形式不同,IML 与 CIML 的目标一致:估计伪造图像的篡改掩码。然而,现有方法存在两个局限:(1)尽管二者共享相同目标,相关方法仍将 IML 与 CIML 视为彼此独立的任务,并分别设计任务特定架构;(2)现有方法本质上均为判别式网络,依赖含噪标签,仅输出确定性掩码,无法显式估计不确定性。该研究提出 UGD-IML,这是一种生成式扩散框架,在连续嵌入空间中对篡改掩码进行建模,并在单一条件架构下同时处理伪造图像与原始图像–伪造图像对。大量实验表明,该方法实现了当前最优(state-of-the-art, SOTA)性能,在 IML 与 CIML 任务上相较强基线模型,平均 F1 分别提升 9.66% 和 4.36%;同时,该方法支持动态推理与不确定性估计,并在后处理操作下表现出良好的鲁棒性。
该文发表于《Neurocomputing》,围绕图像篡改定位(Image Manipulation Localization, IML)与受约束图像篡改定位(Constrained Image Manipulation Localization, CIML)的统一建模问题展开。研究背景在于,随着 Photoshop、FakeApp 及生成式人工智能技术快速发展,高精度图像伪造的门槛显著降低,伪造图像对网络安全、信息真实性及个人与组织安全构成现实威胁,因此,如何准确检测并定位图像中的篡改区域,已成为数字媒体取证的重要课题。现有 IML 方法虽在深度学习推动下取得进展,但其高度依赖大规模、高质量像素级标注数据,而真实场景下的像素级掩码通常需要人工逐像素标注,成本高、耗时长,严重限制了数据集规模与多样性,也削弱了模型在未知伪造类型及复杂真实场景中的泛化能力。为缓解这一瓶颈,CIML 被提出,试图从原图–伪造图像对中自动生成伪标签,再用于训练定位模型。然而,早期方法因建模能力有限,生成的掩码常含噪声且不完整;后续多阶段方案虽然改善了伪掩码质量,但往往依赖多个专用网络,训练、部署和维护流程复杂。
在这一背景下,研究人员指出,IML 与 CIML 虽输入不同,但本质输出完全一致,均为伪造图像的像素级篡改掩码。IML 仅输入伪造图像,而 CIML 需要同时利用原图与伪造图像对照信息。既然两者目标共享,长期将其割裂为两类任务、分别构建独立架构,会带来参数冗余与工程复杂度增加的问题。与此同时,现有多数方法属于判别式模型(discriminative model),直接学习从图像到掩码的映射。这类模型虽简洁高效,但当训练标签覆盖不足或存在噪声时,决策边界容易过度拟合标注偏差,难以形成稳定的“篡改”表征;此外,其输出通常是单一确定性结果,无法为高风险应用中的证据可信度提供像素级不确定性信息,也不具备在测试时灵活权衡效率与精度的天然机制。因此,研究人员尝试将生成式扩散模型(generative diffusion model)引入图像篡改定位,以期利用其连续潜空间建模能力、迭代去噪机制和采样轨迹信息,解决判别式框架在统一性、不确定性表达与动态推理方面的不足。
研究人员提出了统一生成式扩散图像篡改定位框架 UGD-IML(Unified Generative Diffusion-based Image Manipulation Localization)。该框架的核心思想是:不再将掩码仅视作判别输出,而是将篡改掩码作为生成对象,在连续掩码嵌入空间中执行扩散与去噪过程,并以图像特征作为条件信息进行引导。模型通过条件控制模块(Conditional Control Module, CCM)对输入进行统一编码:在 IML 场景中,输入为单幅伪造图像;在 CIML 场景中,输入为原图–伪造图像对。CCM 将不同输入形式映射为共享的多尺度特征,再由具有可变形注意力(deformable attention)机制的解码器在掩码嵌入空间中执行条件去噪。由于编码器与解码器遵循统一架构设计,UGD-IML 得以在共同条件生成范式下同时处理 IML 与 CIML。扩散建模还带来两个重要附加能力:一是可通过调整采样步数实现动态推理(dynamic inference),在测试阶段根据需求平衡精度与计算成本;二是可利用采样过程中各步预测的变化构建像素级不确定性图,从而指示模型对哪些区域信心不足。
从技术方法看,研究主要采用条件扩散模型(conditional diffusion model)作为总体建模基础,在连续掩码嵌入空间中对操作掩码进行加噪与去噪学习;通过统一的条件控制模块(CCM)编码单图像或原图–伪造图像对的多尺度视觉特征;再借助带有可变形注意力的解码器融合条件信息,实现端到端像素级定位。实验部分分别在非受约束 IML 与受约束 CIML 设定下开展评估,并进一步分析动态推理、不确定性感知与常见后处理条件下的鲁棒性。就当前提供的文本而言,未明确给出具体样本队列来源名称与细节,因此不作扩展。
在结果部分,论文首先在“Experiments”中系统评估了 UGD-IML 在 IML 与 CIML 上的性能。研究人员报告,大量实验表明,该框架在两类任务中均达到当前最优性能,相比强基线模型,在 IML 上平均 F1 提升 9.66%,在 CIML 上平均 F1 提升 4.36%。这一结果说明,将 IML 与 CIML 置于统一的条件生成框架中不仅可行,而且能够有效减少任务割裂带来的建模冗余,并提升定位精度。由于原文摘要与实验概述均强调是“extensive experiments”,可以确认研究进行了较全面的定量评测,且结果稳定支持其性能优势。
在“Methodology”对应的方法结果意义上,UGD-IML 的关键创新在于共享建模范式而非简单拼接两类输入。研究人员并非仅设计一个可兼容多输入的判别式网络,而是在统一条件扩散机制下,将掩码生成视为结构化生成任务。该设计使模型在多噪声层级上学习输出空间的一致性,从而对含噪标签问题具备更强适应性。这一点虽然在正文节选中未给出具体消融数据,但在引言与摘要中已有明确理论动机与实验支持:生成式扩散框架相较传统判别式网络,不仅提高了定位性能,还增强了后处理场景中的稳健性。
在“Experiments”所述定性分析方面,研究人员进一步展示了模型的动态推理能力、不确定性感知能力以及在常见后处理操作下的鲁棒性。动态推理来源于扩散采样本身的迭代特性,意味着模型在测试时可通过调节采样步数控制计算开销。像素级不确定性估计则来自对采样过程中预测变化的分析,可用于识别模型在边界、细粒度结构或复杂篡改区域中的低置信度位置。对于图像取证这类高风险任务而言,这一能力具有明显应用价值,因为它不仅给出“哪里被篡改”,还进一步提示“哪些定位结果更可靠”。同时,原文明确指出该方法在常见后处理操作下表现出较强鲁棒性,说明模型并非仅对理想条件下的伪造有效,而对压缩、模糊或其他后处理扰动也具有一定抵抗能力。
在“Conclusion”部分,论文总结指出,UGD-IML 是一种统一的生成式扩散框架,可在连续嵌入空间中对篡改掩码进行建模,并在单一条件架构下同时支持 IML 与 CIML。通过利用迭代去噪过程,该方法实现了动态推理与像素级不确定性估计;大量实验则验证了其当前最优性能及在常见后处理条件下的强鲁棒性。结论同时表明,尽管 UGD-IML 在架构范式上实现了 IML 与 CIML 的统一,但两种任务在实际训练与推理配置上仍可保留一定差异,这意味着该方法并非忽略任务特性,而是在统一理论框架下兼顾任务适配性。这种处理方式为未来图像篡改定位研究提供了一个更具整合性的方向:即从共享输出本质出发,以统一条件生成视角重构传统分裂的任务设计。
综合讨论部分可以看出,该研究的重要意义主要体现在四个层面。其一,在任务层面,论文首次明确将 IML 与 CIML 置于同一架构范式下建模,缓解了长期以来两类问题各自独立建模所造成的重复设计。其二,在方法层面,研究将生成式扩散模型引入图像篡改定位,突破了传统判别式框架仅进行确定性掩码预测的局限。其三,在功能层面,模型天然支持动态推理与不确定性估计,为实际部署提供了更灵活、更可信的输出形式。其四,在应用层面,模型在后处理操作下展现的鲁棒性提升了其面向真实场景数字取证任务的潜在价值。总体而言,该文并未停留于提出一个新的网络模块,而是在问题统一、生成建模、可信推理和性能提升之间建立了较完整的逻辑链条。
研究结论可译为:该研究提出了 UGD-IML,这是一种统一的生成式扩散框架,在连续嵌入空间中对篡改掩码进行建模,并通过单一条件架构同时支持 IML 与 CIML。借助迭代去噪机制,所提方法能够实现动态推理与像素级不确定性估计。大量实验表明,该方法取得了当前最优性能,并在常见后处理操作下表现出较强鲁棒性。