《Electronics》:Dunhuang Mural Style Transfer Using Vision Mamba: In-Context Prompting and Physically Motivated HSV Modulation
Peijun Qin,
Long Liu,
Hongjuan Wang,
Siyuan Ma,
Cui Chen,
Zixuan Han and
Mingzhi Cheng
编辑推荐:
研究人员提出了一种名为Dh-Mamba(Dual-hierarchical Mamba)的新型双向层次化状态空间模型,用于解决任意风格迁移任务中存在的结构失真与纹理模糊问题。针对现有基于Transformer的方法在处理高分辨率图像时面临的计算复杂度二次方增长
研究人员提出了一种名为Dh-Mamba(Dual-hierarchical Mamba)的新型双向层次化状态空间模型,用于解决任意风格迁移任务中存在的结构失真与纹理模糊问题。针对现有基于Transformer的方法在处理高分辨率图像时面临的计算复杂度二次方增长问题,以及传统卷积神经网络难以捕捉长距离依赖的局限性,研究人员引入了选择性状态空间模型(SSM)。该模型通过将风格与内容特征沿序列维度进行拼接,并输入至Mamba块中进行处理,实现了线性复杂度的全局建模。为了消除单向递归带来的信息偏差,研究人员采用了双向SSM策略,使前向分支专注于风格条件的前缀聚合,反向分支提供互补的上下文信息,两者仅在输出阶段进行融合。此外,研究人员设计了风格感知的动态调制机制,利用独立的StyleMamba编码器提取多尺度风格特征,生成全局风格向量以调节SSM的步长参数Δt,从而实现对低频结构保留与高频纹理生成的精细控制。实验结果表明,该方法在保持内容结构的同时能有效迁移风格特征,优于现有的多种对比方法。
研究背景与意义
在图像处理领域,任意风格迁移技术旨在将参考图像的风格特征迁移至内容图像,同时保持内容的语义结构。尽管基于卷积神经网络(CNN)和Transformer的方法取得了显著进展,但仍存在明显局限:Transformer架构因自注意力机制导致计算复杂度随图像尺寸呈二次方增长,难以应用于高分辨率场景;而CNN受限于局部感受野,难以有效建模长距离依赖关系。近期兴起的选择性状态空间模型(Selective State Space Model, SSM),特别是Mamba架构,因其在长序列建模中展现出的线性复杂度优势,为视觉任务提供了新的解决方案。然而,直接将Mamba应用于风格迁移面临挑战,包括单向递归导致的信息流受限以及步长参数无法适应风格动态变化的问题。为此,研究人员开展了Dh-Mamba的研究,旨在通过构建双向层次化状态空间模型,实现高效且高质量的任意风格迁移,相关成果发表在了《Electronics》期刊上。
关键技术方法
研究人员构建了Dh-Mamba框架,核心技术包括:1. 双向层次化状态空间模型:采用前向与反向两个分支处理序列,前向分支负责前缀风格条件聚合,反向分支提供互补上下文,最终仅融合内容段输出。2. 动态特征拼接:将内容特征Xc与风格特征Xs沿序列维度进行拼接,形成输入序列Zin∈ ?2L×C,其中L为特征长度,C为通道数。3. 风格感知动态调制:摒弃预训练VGG,采用独立训练的StyleMamba编码器提取多尺度风格特征{Fs1, …, FsL</sup},并通过轻量级嵌入头压缩为全局风格向量vs。4. 步长参数调节:利用vs通过线性投影Wdt调节SSM的步长参数Δt= Δt,x+ αWdt(vs),其中α为可学习缩放因子。
研究结果
3.1 双向层次化状态空间模型(Dh-Mamba)
研究人员设计了双向处理流程。首先,将内容特征与风格特征进行拼接后输入Mamba块。隐藏状态ht根据离散递归特性演化:当0 < t ≤ L时,对应风格阶段,执行ht= āht-1+ B?xt;当0 < t ≤ 2L时,对应内容阶段,执行相同的递归公式。随后,采用双向SSM策略,前向分支处理正序序列,反向分支处理逆序序列,两者输出仅在最终阶段融合,且仅保留对应于内容段的输出用于解码,有效缓解了单向递归的信息偏差。
3.2 风格感知Δt动态调制
研究人员指出,步长参数Δ实际上控制着系统的“记忆跨度”:较小的Δ保留长程依赖(低频结构),较大的Δ则快速更新状态以捕捉瞬时变化(高频纹理)。为实现动态控制,研究人员未使用预训练VGG,而是采用与内容编码器结构相同但参数独立的StyleMamba编码器,从风格图像Is中提取特征。最深层的风格特征被压缩为全局向量vs= ??(FsL)。该向量通过线性投影调制Δt,使模型能够根据风格图像的属性自适应调整记忆跨度,从而平衡结构与纹理的生成。
3.3 实验与结果分析
研究人员进行了广泛的对比实验与消融实验。在定性和定量评估中,Dh-Mamba在保持内容结构完整性方面表现优异,同时能有效迁移风格纹理。消融实验验证了双向策略、动态调制模块以及特征拼接方式的有效性。研究表明,所提出的动态调制机制能够显著提升生成图像的质量,避免了传统方法中常见的结构扭曲和纹理模糊现象。
讨论与结论
研究人员总结了Dh-Mamba的主要贡献:证明了状态空间模型在风格迁移任务中的有效性,解决了Transformer的高计算负担问题;提出的双向策略和动态调制机制有效克服了单向递归的固有缺陷。研究结论表明,通过层次化设计和风格感知的动态参数调整,Dh-Mamba能够在线性计算复杂度下实现高质量的任意风格迁移,为实时高分辨率图像处理提供了一种新的技术路径。该研究不仅推进了状态空间模型在生成式视觉任务中的应用,也为风格迁移领域提供了新的思路。