HFI-Former：用于鲁棒场景文本检测的高频交互Transformer 高宇冰（Yubing Gao）、高全利（Quanli Gao）、邵连合（Lianhe Shao）、王希涵（Xihan Wang）和刘鲁芳（Lufang Liu）

《Information》：HFI-Former: High-Frequency Interaction Transformer for Robust Scene Text Detection Yubing Gao, Quanli Gao, Lianhe Shao, Xihan Wang and Lufang Liu

【字体：大中小】 时间：2026年04月14日 来源：Information 2.9

编辑推荐：

　　摘要场景文本检测旨在准确定位在复杂环境中捕获的图像中的文本实例。其性能在很大程度上取决于精确的文本边界划分和从杂乱背景中可靠的语义区分。然而，现有方法在处理此类复杂场景时仍存在困难。重复的下采样逐渐使特征偏向低频成分，从而削弱了对文本形态至关重要的边缘细节和局部结构。此外，语义

　　摘要
场景文本检测旨在准确定位在复杂环境中捕获的图像中的文本实例。其性能在很大程度上取决于精确的文本边界划分和从杂乱背景中可靠的语义区分。然而，现有方法在处理此类复杂场景时仍存在困难。重复的下采样逐渐使特征偏向低频成分，从而削弱了对文本形态至关重要的边缘细节和局部结构。此外，语义信息和局部细节通常被独立建模。这种缺乏协调性使得高频响应容易受到背景噪声的影响。为了解决这些问题，我们提出了HFI-Former，这是一种基于Transformer的模型，旨在实现高频增强和特征交互。该框架包括多尺度特征提取、频率增强表示、语义引导的特征交互以及可变形Transformer编码。引入频率域增强以保留因重复下采样而退化的高频结构特征。语义感知的特征交互进一步注入全局上下文以调节多尺度特征融合。在CTW1500、Total-Text和ICDAR1500上的实验表明，该模型在复杂场景中具有竞争力的边界定位准确性和强大的整体检测性能。

1. 引言
场景文本检测是计算机视觉中的核心任务，旨在精确定位自然图像中的文本实例及其轮廓。通过连接视觉感知和语言理解，它在自动驾驶、实时翻译、智能交通和人机交互等应用中发挥着关键作用。尽管深度学习取得了最新进展，但由于文本形状复杂和环境多样，检测的鲁棒性和准确性在现实世界场景中仍然有限。现有的文本检测方法通常分为基于分割的方法和基于回归的方法。基于分割的方法使用像素级掩码来检测任意形状的文本。代表性方法包括PSENet [1]和DBNet [2]。这些方法在边界划分方面表现良好，但其性能在很大程度上依赖于主干特征的分辨率。下采样导致的细节损失往往会降低准确性，而背景噪声可能导致漏检或误检。基于回归的方法（如EAST [3]）直接回归文本框或控制点。它们在规则文本场景中提供了高效的推理能力，但在处理曲线文本和复杂背景时遇到困难。最近，受DETR [4]启发的基于Transformer的架构被应用于文本检测。例如TESTR [5]和LayoutFormer [6]利用了全局依赖性建模。自注意力机制和交叉注意力增强了上下文推理。这些机制对于曲线文本和密集排列的文本非常有效，通常优于传统的基于CNN的方法。然而，性能仍然严重依赖于输入特征的质量。如果低级特征遭受结构退化，Transformer的全局建模优势就会受到限制。现有的多尺度融合策略通常依赖于简单的加法或连接。这样的设计忽略了局部特征之间的语义可靠性差异，并可能在复杂背景中引入噪声，从而削弱语义一致性。最近的研究尝试在特征表示阶段引入专门的增强机制。HFENet [7]通过显式补偿多尺度特征学习中的高频信息损失来加强边缘表示。TextFuseNet [8]通过多级特征融合改善了全局语义与局部细粒度特征之间的交互。然而，尽管这些方法在特定方面取得了改进，但在复杂场景中仍面临显著限制。重复的下采样操作逐渐使特征表示偏向低频成分，导致文本边界和精细结构细节的丢失。此外，语义信息和局部细节通常被独立建模，缺乏有效的协作。结果，局部高频响应容易受到背景噪声的干扰，产生错误的激活并削弱了可靠的文本定位。为了解决这些挑战，我们提出了一个通用且高效的场景文本检测框架。该框架旨在在特征表示阶段增强局部结构表示和全局语义一致性。主要贡献总结如下：

我们提出了HFI-Former，一种高频增强和特征交互的Transformer。它同时建模高频结构信息和跨尺度语义关系。多尺度特征在稳定的语义约束下保持结构完整性，提高了复杂场景中的检测性能。我们设计了两个关键模块：WFE-Net和FIRM。WFE-Net补偿了由主干下采样引起的高频细节退化，增强了结构敏感性。FIRM促进了高频结构与语义之间的有效交互，抑制了背景干扰并提高了鲁棒性。我们在CTW1500、Total-Text和ICDAR2015上进行了系统的实验和消融研究，结果验证了该框架及其关键模块的有效性，证明了其在复杂场景中的强大泛化能力。

2. 相关工作
自然场景中的文本具有多样的形状、大尺度变化和复杂的背景，这要求文本检测方法能够有效保留高频细节（如文本边缘和局部几何结构），同时依赖全局语义来稳定地区分和约束这些局部响应。为此，现有研究主要发展了三种代表性方法：基于回归的方法、基于分割的方法和基于Transformer的方法。然而，无论使用哪种检测框架，性能在很大程度上取决于底层特征的表示能力。因此，在回顾了上述三种代表性方法之后，本节进一步分析了与特征增强和适应相关的研究，以明确我们方法的研究定位。

2.1. 基于回归的方法
基于回归的场景文本检测方法通过直接从特征图中回归文本实例的几何参数（如轴对齐的矩形、四边形顶点、偏移量、贝塞尔控制点或多边形点序列）来实现端到端的定位。这些方法通常具有网络结构简单、推理速度快且对额外后处理依赖性小的优点，这使它们在工业级实时系统中保持了重要地位。EAST [3]首次提出了一个完全卷积的单阶段流程，直接在像素级别回归多方向矩形或四边形，消除了冗长的多阶段提议生成过程。TextBoxes++ [9]在SSD框架内引入了不规则四边形回归和纵横比自适应卷积，进一步提高了长文本和倾斜文本的检测准确性。随后，CRAFT [10]从字符中心点回归到四个方向的边界偏移量，并结合了字符亲和图，有效提高了曲线文本的定位性能。2020年后，研究人员在回归准确性和鲁棒性方面继续取得进展。DeepRel [11]引入了深度关系建模来增强长文本实例的全局一致性。ContourNet [12]结合了轮廓点回归和贝塞尔曲线控制点，实现了高度曲线文本的精确参数化表示。PCR [13]提出了一种渐进式轮廓回归策略，迭代细化多边形顶点序列。I3CL [14]通过实例内协作学习增强了字符和背景区域的特征，并通过实例间协作学习捕获不同文本实例之间的依赖性和全局上下文，利用伪标签来利用未标记数据。基于回归的方法在结构简单性和推理效率方面具有明显优势。然而，它们的预测过程通常依赖于固定或约束较弱的几何参数化，这限制了它们表示高频结构特征（如文本边界和细长笔画）的能力。在多尺度下采样和特征聚合过程中，与文本形态密切相关的高频信息容易进一步退化，导致在复杂背景或密集文本场景中定位不稳定。尽管一些研究通过引入关系建模或轮廓参数化来缓解长文本或曲线文本的几何表示问题，但这些方法仍然从根本上依赖于空间域回归。它们在显式建模和语义约束高频结构信息方面的能力有限。

2.2. 基于分割的方法
基于分割的检测范式将场景文本检测重新定义为像素级语义或实例分割任务。它们生成高分辨率的文本概率图、核图或实例感知掩码，然后通过Vatti裁剪、连通组件聚类或可学习聚类等后处理步骤恢复最终的文本实例。这些方法自然适应任意形状的文本，并能够精确划分复杂边界，因此在过去五年中成为学术界和工业界的主导方向。PSENet [1]首次提出了一个渐进式尺度扩展算法，有效分离相邻的文本实例，缓解了粘连问题。DBNet [2]和DBNet++ [15]引入了一个可微分的二值化模块，将原本不可微分的阈值操作转换为可学习的过程，实现了真正的端到端训练。后续研究进一步关注了鲁棒性和效率。FCE [16]用傅里叶轮廓回归替换了传统的二值掩码，避免了复杂的后处理。RSCA [17]提出了一种上下文感知的上采样策略，以提高小文本和密集分布文本的鲁棒性。TransText [18]引入了一个特征重新分配模块和改进的Transformer金字塔解码器，用于生成精确的二值图。DText [19]利用文本形状敏感的位置嵌入生成实例自适应的动态卷积参数。RMIPN [20]设计了一个多信息感知的分割头，预测边界、距离场和方向场，提高了边界定位准确性。基于分割的方法在边界细化和形状表示方面具有明显优势。然而，它们的性能在很大程度上取决于主干保持高频结构信息的能力。当特征在重复下采样过程中出现边缘模糊或高频退化时，空间精度可能会下降，并可能在复杂背景中引入噪声响应。因此，仅依赖空间域分割监督不足以从根本上缓解高频信息损失。在特征级别增强结构信息和多尺度建模仍然是提高鲁棒性的关键。

2.3. 基于Transformer的方法
近年来，受DETR系列和Transformer在视觉领域成功的影响，许多研究将Transformer架构引入了场景文本检测。基于DETR的方法侧重于有效利用先验信息来提高检测性能。这些方法通常采用DETR风格的编码器-解码器架构来直接预测文本查询或多边形点。TESTR [5]采用单编码器双解码器架构，同时执行文本边界控制点回归和字符识别。DPText-DETR [21]使用动态点作为查询，并结合增强的分解自注意力，实现了对任意形状文本的有效建模。SwinTextSpotter [22]将Swin Transformer主干与动态头集成，用于检测和识别的协同优化。CDText [23]引入了一种上下文感知的可变形Transformer，以增强多尺度特征交互并改进复杂形状文本实例的表示。ESTextSpotter [24]通过显式点查询或任务感知查询设计统一了检测和识别。LayoutFormer [6]引入了分层解码和高效的前景特征采样，实现了单词级、线条级和段落级的文本检测。基于Transformer的方法在全局关系建模、灵活表示和端到端流程方面具有优势。然而，它们的性能仍然依赖于输入特征的结构完整性和多尺度表示。当主干特征遭受高频细节退化时，全局建模的优势难以充分利用，有时会放大非文本响应。因此，在特征级别实现高频结构保留和语义约束之间的深度协同仍然是一个未解决的问题。

2.4. 基于特征增强和适应的方法
除了上述三种主要检测范式外，许多研究还关注底层特征表示阶段。它们旨在通过特征增强和适应机制来提高模型对复杂文本的鲁棒性。在传统的卷积网络中，标准的下采样操作容易引入混叠效应，导致高频细节的不可逆退化。为了解决这一根本问题，通用视觉社区提出了诸如Anti-Aliasing CNNs [25]等方法。这些方法在下采样之前通过引入低通滤波来显式保留高频成分。最近的研究进一步证实了这种机制在细粒度任务中的重要性。例如，Ning等人[26]研究了抗混叠在小对象检测中的作用。他们表明，抑制混叠效应对于保留小而密集分布的结构特征至关重要。同时，为了解决自然场景中文本的多样形状，研究人员开发了各种样本敏感的架构进行自适应特征提取。Kernel Adaptive Convolution (KAC) [27]使用距离图预测来动态指导卷积核。Li等人[28]提出了基于注意力的特征提取和级联特征融合框架，以增强多尺度特征表示和跨级交互。类似地，Wang等人[29]引入了内部特征增强和自适应跨融合，以加强跨级特征交互，从而改进了不规则和多尺度文本实例的表示。此外，一些研究探索了特征增强和频率域建模。DBNet [2]和TextFuseNet [8]在空间域进行了边界感知建模和多级特征融合。FCE [16]使用傅里叶变换显式建模复杂轮廓。TPWGAN [30]引入了一个由文本先验引导的小波感知框架，以增强高频细节并改进细粒度特征恢复。HFENet [7]专注于补偿特征学习过程中的高频信息损失。尽管这些方法在保留局部结构或自适应特征提取方面取得了显著改进，但它们通常将高频保留和空间域中的语义交互视为独立步骤。因此，在复杂背景干扰下，动态地对齐和深度融合显式的高频结构细节与全局语义约束仍然具有挑战性。全面回顾表明，尽管场景文本检测在不同范式下取得了进展，但模型性能受到特征表示阶段的结构完整性和语义一致性的限制。高频结构信息容易退化[31]，而高级语义特征往往无法提供稳定的区分性约束。这些方面之间的协同作用不足已成为限制复杂场景文本检测性能的关键因素。大多数现有方法专注于检测头设计、解码策略或后处理。高频结构信息的显式建模及其与跨尺度语义的深度交互仍然没有得到充分探索。在具有弯曲、密集或复杂背景的场景中，仅依赖空间域特征或单尺度语义建模无法确保结构完整性和语义稳定性。

3. 方法
3.1. 概述
我们提出了HFI-Former，一个用于场景文本检测的高频增强和特征交互Transformer框架。整体架构如图1所示。通过有机地将频域增强与跨尺度语义交互相结合，该框架构建了在结构上明确且在语义上一致的多尺度特征表示。具体来说，我们引入了一个小波频率增强网络（WFE-Net），该网络对从主干网络提取的多尺度特征进行处理。WFE-Net执行多级离散小波分解，将特征分为低频结构成分和多方向高频纹理成分。对每个子带应用轻量级的可学习卷积增强，然后通过渐进式重建恢复空间域特征。这一过程有效地补偿了由于下采样导致的高频结构信息退化，同时保持了原始的尺度层次结构，从而实现了结构细节和语义表示的协同保存。随后，特征交互细化模块（FIRM）采用双流金字塔架构，将全局语义信息从原始多尺度特征注入到WFE-Net增强的特征中。FIRM使用双路径交互Transformer（DRIT），结合基于Softmax的注意力和基于Sigmoid的门控机制，实现选择性的局部语义调制和全局噪声抑制，生成高质量增强的多尺度特征。然后，这些增强特征被输入到六层多尺度可变形Transformer编码器中，以捕获跨尺度的全局上下文依赖性。轮廓生成器由三个分割层和三个回归层组成。分割层生成文本实例掩码，并与锚点先验合作，通过联合回归细化控制点，而回归层进一步利用先验信息准确预测最终控制点，从而实现文本实例的精确轮廓拟合。在以下部分，我们将详细描述每个组件的设计。

3.2. WFE-NET
在多尺度特征提取过程中，卷积网络通过连续的卷积和下采样操作倾向于衰减高频成分，使得低级特征中包含的边缘、纹理和局部几何结构难以在更深层次中得到完全保留。这种高频信息的丢失限制了特征对形状、结构和细粒度模式的表示能力，从而影响了后续模块中目标区域的准确建模。为了明确补偿这一缺陷，我们设计了一个基于标准ResNet-50主干网络的高频增强网络，称为WFE-Net（小波频率增强网络）。WFE-Net的核心思想是引入一个可学习的频域建模机制，以在每个尺度上选择性地补偿高频信息，同时保持原始的多尺度结构。具体来说，WFE-Net从主干网络获取多尺度特征{??1,??2,??3}，并通过额外的卷积操作从最深层的特征??3生成一个较低分辨率的特征??4，形成分辨率逐渐降低的特征层次结构，表示为{??1,??2,??3,??4}。在每个尺度上，我们引入了一个可学习的小波融合卷积（WFC），以增强CNN特征在不同阶段的高频结构表示。WFC架构如图2所示。

3.3. FIRM
在场景文本检测中，特征融合通常受到低级结构细节与高级语义之间弱交互的限制。尽管WFE-Net增强了高频纹理，但仅靠频域增强无法充分利用复杂场景中的语义线索。在密集文本或杂乱背景中，局部高频响应缺乏上下文支持，并且容易受到噪声的干扰。为此，我们设计了特征交互细化模块（FIRM），该模块采用结构化的跨流特征交互机制，将全局语义信息有效地注入到高频增强特征中，同时抑制噪声响应。这种设计使得构建在语义上一致且在结构上明确的多尺度表示成为可能。ResNet-50提取的原始多尺度特征????和WFE-Net增强的多尺度特征??W??分别由特征金字塔网络（FPN）处理，生成相应的金字塔特征????和??W??。这两个特征流作为FIRM的双输入。FIRM的核心组件是双路径交互Transformer（DRIT），其主要目标是引入稳定且可控的语义信息，同时保持高频结构定位能力。DRIT架构如图4所示。在DRIT中，高频增强特征作为查询流，而原始语义特征作为键/值流。这种设计的动机如下：文本边缘和笔画结构具有更强的空间定位确定性，因此提供了可靠的语义对齐锚点。相比之下，如果使用语义特征作为查询，注意力响应在复杂背景中容易扩散，从而削弱了结构区分性。具体来说，最高分辨率的特征??1采用四级分解，中等分辨率的特征??2采用三级分解，而低分辨率的特征??3和??4仅使用两级分解。这种设计的考虑因素如下：高分辨率特征包含丰富的局部纹理信息，更深层次的小波分解能够捕获多尺度高频模式；中等分辨率特征在详细结构和语义抽象之间取得平衡，适度的分解就足够了；而低分辨率特征主要编码高级语义信息，过度深入的分解可能导致高频成分稀疏，可能破坏语义一致性。

给定任意尺度上的特征图????，WFC首先执行????级离散小波变换（DWT），将特征分解为一个低频子带?????????和三个方向的高频子带{?????????,?????????,?????????}，分别对应水平、垂直和对角线边缘和纹理响应：????????(????)={?????????,?????????,?????????,?????????},??=1,…,????（1）。低频子带?????????保留了主要的结构和语义信息，并递归地输入到下一个小波层次，进一步分解为新的低频和高频子带：???????+1?(?????????)={????+1?????,????+1?????,????+1?????,????+1?????}（2）。这三个高频子带捕获水平、垂直和对角线的方向边缘和细纹理信息。为了使这些成分在网络内可学习和增强，我们沿通道维度连接这四个子带，并应用轻量级的深度卷积，随后应用一个可学习的缩放因子????以实现方向敏感的增强：?????=????·Conv??????(Concat?[?????????,?????????,?????????,?????????]（3）。然后通过逆离散小波变换（IDWT）逐步重建这些增强后的子带，按从深到浅的顺序，获得相应尺度上的增强空间域特征：???????????=IDWT??=????→1?(?????)（4）。最后，将重建的特征与同一尺度上的空间域卷积特征残差融合，生成输出特征：??W??=???????????+????·Conv?(????）（5），其中????表示一个通过反向传播自适应优化的可学习通道级融合系数，用于平衡频域增强和原始空间语义表示的贡献。

为了进一步验证所提出的WFE-Net在特征增强过程中可以有效补偿高频信息，我们在空间域和频域中可视化和比较了增强前的特征??1和增强后的特征??W1的响应。结果如图3所示。在空间域热图中，原始特征对文本区域的响应通常表现为边界模糊的斑点状图案。这表明标准卷积在连续下采样过程中难以保持小目标的精确结构定位。经过WFE-Net处理后，文本区域的颜色变深，响应显著增强。特征还显示出更清晰的线状和骨架状结构。在频域中，我们计算二维幅度谱以明确观察特征的频率分布。增强前，高频区域（即谱的外围区域）包含相对较弱的能量。相比之下，WFE-Net显著提高了这些外围区域的亮度。从定量角度来看，高频能量比（HFER）显著提高。例如，在第二种情况下，它从2.40%增加到3.12%。通过这种设计，WFE-Net有效地补偿了每个特征流中与文本形状相关的高频信息，而不改变原始的尺度层次结构。因此，增强后的多尺度特征在输入后续模块之前表现出更强的结构区分性、更好的纹理鲁棒性和更好的语义保留能力，从而显著提高了复杂场景中的文本检测质量。

3.4. Transformer编码器
在我们的模型中，我们采用标准的多尺度可变形Transformer编码器，在增强特征输入预测阶段之前建立全局上下文依赖性。编码器由六个堆叠层组成。每一层包括一个多尺度可变形自注意力模块和一个前馈网络，带有残差连接以确保稳定训练。在每一层中，自注意力机制对每个查询位置的多尺度特征图进行稀疏采样，自适应地关注与文本结构相关的区域。前馈网络进一步增强了特征表示能力。经过六次迭代后，编码器输出的特征不仅整合了跨尺度信息，还捕捉了全局语义依赖性，为解码器和后续预测模块提供了统一且稳健的特征表示。3.5. Contour-Former 使用多尺度可变形Transformer解码增强后的多尺度特征，以生成文本实例掩码和轮廓控制点坐标。在解码过程中，初始查询通过Top-K模块从特征图中选取，并与参考点关联，为解码器提供初始的空间指导。解码器逐层处理多尺度特征：前三层通过分割预测文本实例掩码，并基于这些掩码生成空间锚点先验，为后续的控制点回归提供稳定的区域级定位参考。最后三层在这些锚点先验的指导下逐步细化控制点坐标，实现高精度的文本轮廓拟合。对于Contour-Former的输入，来自FIRM的多尺度增强特征与编码器产生的多尺度特征通过FPN融合，形成同时整合了高频纹理信息和全局语义上下文的特征表示。为了确保高效解码，查询特征采用了先前工作中使用的解耦自注意力机制，例如TESTR [5]。对于N个文本实例（每个包含K个控制点），标准全局注意力的计算复杂度为???(??2???2???)。通过分解注意力过程，首先应用组内自注意力来捕捉局部依赖性，然后使用组间自注意力来整合全局关系。因此，总体计算复杂度显著降低到???(?????2??? +?????2???)。这种设计使模型在密集文本场景中具有高度的可扩展性。接下来，多尺度可变形交叉注意力允许查询聚焦于与文本实例相关的关键区域，随后是一个前馈网络，进一步增强特征表示能力。掩码预测层使用最高分辨率的特征生成文本实例掩码，并通过掩码加权策略计算锚点先验，反映文本实例的空间中心位置。回归层以增强后的查询特征和前一层的参考点为输入，采用组内/组间自注意力、多尺度可变形交叉注意力以及前馈网络逐步细化控制点坐标，最终生成最终的文本轮廓表示。得益于前端的高频结构增强和跨层特征交互机制，输入到Contour-Former的特征在结构完整性和语义一致性方面有了显著提升。这为实例级解码提供了稳定且具有区分度的特征基础，大大增强了Contour-Former在复杂场景中定位和拟合文本轮廓的能力。3.6. 损失函数为了有效训练所提出的多尺度文本检测框架，我们采用了一个联合损失函数，包括分类、掩码预测、控制点回归和边界框回归项，以实现端到端优化。该损失函数旨在确保准确的文本实例分类，同时增强实例掩码的空间完整性和轮廓控制点的几何精度，从而实现任意形状文本的稳定定位和精确拟合。设模型输出为outputs，真实标签为targets，匹配集为indices，样本总数为??inst。总体损失可以表示为：?=??cls??cls+??mask??mask+??ctrl??ctrl+??bbox??bbox+??giou??giou (12)为了平衡不同项的梯度规模，我们设置损失权重为??cls =2, ??mask =5,??ctrl =5,??bbox =1,??giou =1，确保在训练过程中分类、掩码和控制点回归的平衡和稳定优化。分类损失?cls采用加权Sigmoid Focal Loss来处理每个预测类别：?cls=FocalLoss?(predl?ogits,targeto?nehot,??,??) (13)这抑制了易于分类的样本，强调了难处理的样本，鼓励模型关注复杂背景下的具有挑战性的文本实例。掩码损失?mask结合Dice Loss和二元交叉熵（BCE）来优化文本实例掩码的形状和边缘精度：?mask=DiceLoss?(^??,??)+BCE?(^??,??) (14)其中^??和M分别表示预测掩码和真实掩码。此外，对低分辨率掩码应用辅助监督以增强局部纹理表示。控制点回归损失?ctrl对关键点应用L1回归，结合来自分割层的锚点先验A和参考点R1：?ctrl=1??inst???inst∑??=1∥^?????????∥1 (15)其中^????和????分别表示预测控制点和目标控制点。边界框回归损失?bbox和GIoU损失?giou优化文本实例的空间定位和覆盖精度：?bbox=1??inst?∑??∥^?????????∥1 (16) ?giou=1??inst?∑??(1?GloU?(^????,????)) (17)在训练过程中，匹配算法确定预测和目标之间的对应关系，基于此计算所有上述损失项。对于多层解码器结构，在中间输出上应用辅助损失以改善梯度传播和训练稳定性。此外，对文本掩码中不确定性较高的区域采用加权采样策略，鼓励模型关注复杂背景下的挑战性区域，从而提高整体检测精度和鲁棒性。这种联合损失没有引入新的损失形式，而是为所提出的结构-语义协作框架提供了合理的组合，确保在训练过程中高频增强特征和语义注入机制得到充分约束和联合优化。4. 实验4.1. 数据集为了全面评估所提出模型在不同场景下的文本检测性能，我们在多个公共基准数据集上进行训练和评估。这些数据集涵盖了各种具有挑战性的文本场景，包括合成图像和真实世界图像、水平和弯曲的文本实例以及多语言环境。Total-Text [32]：包含1555张图像，其中1255张用于训练，300张用于测试。注释主要在英语单词级别提供，涵盖了三种文本方向：水平、多方向和弯曲文本。超过一半的图像包含多种方向的组合，强调了在复杂文本形状上检测性能的评估。CTW1500 [33]：这是一个专注于弯曲文本检测的数据集，包含1500张图像，其中1000张用于训练，500张用于测试。每个文本实例都使用14点多边形进行精细注释，能够准确表示细长、弯曲或扭曲的文本形状。ICDAR2015 [34]：一个用于评估多方向场景中文本检测的数据集，包含1000张训练图像和500张测试图像。这些图像大多是抓拍照片，展示了诸如扭曲和模糊等复杂条件。所有文本实例都使用单词级别的边界框进行注释，这广泛用于评估模型定位倾斜文本的能力。SynthText 150k [35]：这是一个用于预训练文本检测和识别模型的大规模合成数据集。该数据集通过将合成文本渲染到真实背景图像上来生成，展示了丰富的字体、颜色、比例、方向和照明条件变化。尽管由合成图像组成，但它提供了高视觉真实性，有效增强了模型的初始特征学习能力，并降低了在真实世界数据集上过拟合的风险，因此被广泛用于预训练阶段。MLT2017 [36]：这是一个为多语言场景文本检测和识别设计的数据集，包含10,000张图像，涵盖九种语言（例如中文、英文、阿拉伯文等）。数据集分为7200张训练图像、1800张验证图像和1000张测试图像。文本实例以各种形式出现，包括水平、倾斜和弯曲形状，背景复杂，使其成为评估跨语言泛化和在具有挑战性场景中的鲁棒性的广泛使用的基准。4.2. 实现细节所有实验都在Ubuntu 20.04环境下，使用单个NVIDIA RTX 3090 GPU进行。软件栈包括Python 3.8、PyTorch 1.11.0和CUDA 11.3，确保实验结果的可重复性。在预训练阶段，我们在SynthText 150k、Total-Text和MLT2017的混合数据集上进行了40,000次迭代训练。主干网络的优化学习率为1 ×10?5，其余模块的初始学习率为1 ×10?4，在240,000次迭代时衰减10倍。AdamW用于端到端训练，权重衰减为1 ×10?4，并应用最大范数为0.1的梯度裁剪以增强深度网络的稳定性。随后，加载最佳预训练权重在Total-Text、CTW1500和ICDAR2015数据集上进行30,000次迭代微调，初始学习率分别设置为1 ×10?4、5 ×10?5和1 ×10?5，并在24,000次迭代时均匀衰减10倍。Transformer模块使用8个注意力头和4个可变形采样点来实现高效的稀疏特征聚合。模型的Contour-Former由3个分割层和3个回归层组成，负责预测二进制掩码和由16个控制点组成的精确多边形轮廓。在检测过程中，使用100个可学习的查询来覆盖不同规模、形状和数量的文本实例。为了数据增强，在训练期间采用多尺度策略：图像的短边在480到896像素之间随机采样（长边上限为1600像素），结合随机裁剪、水平翻转和光度失真以提高鲁棒性和泛化能力。在测试期间，图像大小调整使得短边为1000像素（长边不超过1800像素），并应用0.4的置信阈值来过滤最终的检测结果。4.3. 结果4.3.1. 总体结果比较为了全面评估所提出的高频细节增强和跨尺度语义-细节特征交互机制在复杂自然场景中的有效性，我们在两个主流任意形状文本检测基准数据集CTW1500、Total-Text和ICDAR2015上进行了实验。如表1所示，在CTW1500上，我们的方法达到了91.7%的精确度、85.7%的召回率和88.6%的F分数，性能处于领先水平。与之前的最佳方法LRANet（87.4% F分数）相比，我们的方法提高了1.2个百分点；与最近的方法如KAC（86.8% F分数）和TextBPN++（86.5% F分数）相比，提高了1.8-2.1个百分点。考虑到CTW1500中的许多文本实例具有高曲率、大跨度和复杂的轮廓结构，显著的性能优势表明所提出的频域增强和特征交互策略有效地加强了文本区域的结构连续性和边界一致性建模，从而显著提高了长弯曲和任意形状文本实例的检测性能。表1. CTW1500场景文本检测结果。P、R和F分别表示精确度、召回率和F分数。如表2和表3所示，我们的方法在Total-Text和ICDAR2015基准数据集上都表现出色。在Total-Text上，我们的方法达到了89.3%的精确度、86.0%的召回率和87.6%的F分数，超过了所有基于ResNet-50主干的网络。值得注意的是，召回率的提高最为显著：与最佳基线I3CL（84.2%）相比，提高了1.8个百分点；与主流方法（范围为82-83%）相比，提高了3-4个百分点。此外，在高度具有挑战性的ICDAR2015数据集上，我们的方法达到了90.9%的精确度、85.5%的召回率和88.1%的F分数。与经典的DBNet++（87.3%）和最近的STD（87.0%）相比，我们的方法在F分数上提高了0.8-1.1个百分点。这些结果表明，所提出的方法能够更全面地定位文本区域，并有效减少在各种复杂场景中的漏检。这一优势主要源于WFE-Net对高频结构信息的有效增强和FIRM在多尺度特征融合过程中对无关背景响应和语义一致性的抑制，从而提高了模型在复杂背景和不同文本形状下的整体召回能力。表2. Total-Text场景文本检测结果。P、R和F分别表示精确度、召回率和F分数。表3. ICDAR2015场景文本检测结果。P、R和F分别表示精确度、召回率和F分数。HFI-Former的计算效率和模型复杂性在表1、表2和表3中总结。如结果所示，HFI-Former在所有基准数据集中的参数数量保持恒定，为51.1 M。然而，计算成本（FLOPs）根据不同数据集的输入分辨率而变化，分别为CTW1500、Total-Text和ICDAR2015需要228.9 G、246.9 G和261.3 G FLOPs。这种计算需求的波动导致了相应的推理速度分别为9.4 FPS、8.7 FPS和8.1 FPS。尽管由于我们专注于复杂形状的深度频率增强，其速度比实时导向架构（例如LRANet、KAC）慢，但HFI-Former在F分数（SOTA）和推理效率方面优于代表性的高性能模型如TESTR和TextFuseNet。图5和图6展示了我们的模型在CTW1500、Total-Text和ICDAR2015数据集上的可视化结果。在所有三个数据集上，我们的方法都实现了最优或接近最优的性能。这清楚地表明，小波频率增强网络（WFE-Net）和特征交互细化模块（FIRM）在特征层面上形成了互补和协同的关系：WFE-Net增强了文本区域的结构响应，而FIRM注入了跨尺度的语义信息，以提高整体一致性并抑制无关激活。因此，该模型在不同数据集和复杂场景中表现出稳定且泛化能力强的检测性能。图5. 在CTW1500和Total-Text数据集上的可视化结果。图6. 在ICDAR2015数据集上的可视化结果。4.3.2. 与其他特征增强方法的比较为了进一步验证我们增强策略的有效性，我们将HFI-Former与几种代表性方法进行了比较。DBNet利用边缘感知的自适应阈值图来改善边界定位。TextFuseNet采用高分辨率的多级特征融合来增强任意形状文本的细粒度表示。在频域中，FCE模型通过傅里叶系数来塑造形状，但过滤掉高频细节。虽然HFENet补偿了高频损失，但HFI-Former独特地将WFE-Net（结构增强）与FIRM（语义交互）结合起来。这种协作设计有效地减轻了纯高频增强时容易出现的背景噪声和错误激活问题。如表4所示，HFI-Former在CTW1500（88.6%）和Total-Text（87.6%）上取得了最先进的F分数，显著优于DBNet、TextFuseNet、FCE和HFENet。具体来说，我们在CTW1500上的精确度达到了91.7%，在Total-Text上的召回率为86.0%。这些结果表明，将高频增强与语义引导的交互结合起来，为复杂场景文本提供了更稳健的表示。表4. 不同特征增强策略的比较。P、R和F分别表示精确度、召回率和F分数。4.4. 消融研究4.4.1. 对关键模块的消融为了验证所提出模块的有效性，我们在CTW1500和Total-Text数据集上进行了系统的消融实验。作为参考，使用了移除了所有增强模块的基线模型。然后分别单独和联合添加WFE-Net和FIRM，以分析它们的独立贡献和协同增益。结果分别展示在表5和表6中。表5. 在CTW1500上对WFE-Net和FIRM的消融研究。P、R和F分别表示精确度、召回率和F分数（?表示使用了该模块）。表6. 在Total-Text上对WFE-Net和FIRM的消融研究。P、R和F分别表示精确度、召回率和F分数（?表示使用了该模块）。通过引入WFE-Net，CTW1500数据集的精确度从88.62%提高到了90.32%，F分数从86.56%提高到了87.60%。在Total-Text数据集上，精确度从85.70%提高到了88.88%，F分数从84.94%提高到了86.76%。这表明基于频率的高频增强机制有效地增强了文本区域的结构响应，使模型能够在复杂背景中实现更准确的定位，从而减少了误报并提高了检测精度。当仅添加FIRM时，在CTW1500上，召回率从84.60%提高到了86.16%，F分数提高到了87.54%。在Total-Text上，精确度从85.70%提高到了87.33%，召回率从84.19%提高到了85.91%，F分数从84.94%提高到了86.61%。这表明FIRM的跨尺度语义注入和特征交互机制增强了特征之间的语义一致性，使模型即使在具有复杂背景或显著结构变化的区域也能保持稳定的区域覆盖。更重要的是，当同时启用WFE-Net和FIRM时，模型取得了最显著的性能提升；在CTW1500上，F分数达到了88.58%，比基线高出2.02%。在Total-Text上，F分数为87.62%，提高了2.68%。这些结果优于单独使用任一模块的情况。可视化比较如图7所示。WFE-Net提供了结构增强的特征基础，而FIRM在此基础上进一步注入了全局语义约束并抑制了无关激活。它们在特征层面上形成了互补和协同的交互，从而实现了更稳定和准确的文本检测。图7. 检测结果的可视化比较：(a)显示了基线结果。(b)显示了所提出模型的结果。4.4.2. 对WFE-Net分解层次的消融为了定量分析高频能量保留对检测性能的影响，我们对四个多尺度特征图{??1,??2,??3,??4}的小波分解层次进行了消融研究。如表7所示，我们将提出的分辨率自适应设置（4, 3, 2, 2）与使用统一分解深度的配置进行了比较。在实验过程中，FIRM模块和其他所有超参数保持不变。表7. 在CTW1500的多尺度特征上对WFE-Net分解层次的消融研究。P、R和F分别表示精确度、召回率和F分数。如表7所示，与仅使用FIRM的基线模型相比，提出的设置（4, 3, 2, 2）将精确度提高了2.68%。这表明WFE-Net有效地补偿了通过深度小波分解过程中丢失的结构能量，从而提高了边界定位的准确性。此外，我们观察到统一深度分解设置（4, 4, 4, 4）实现了最高的精确度（92.00%），但召回率急剧下降到82.59%。这导致F分数甚至低于基线。这一结果表明，对低分辨率特征进行过度分解会引入背景噪声并破坏语义一致性。相比之下，提出的（4, 3, 2, 2）策略在精确度和召回率之间取得了最佳平衡，达到了88.58%的F分数。这证实了自适应平衡结构增强和语义抽象的必要性。4.4.3. 对主干网络独立性的分析为了进一步验证我们提出方法的主干网络独立性和可扩展性，我们通过用更高容量的架构ResNet-101替换默认的ResNet-50，在CTW1500数据集上评估了其性能。如表8所示，我们的方法在更强的主干网络上取得了进一步的性能提升。具体来说，F分数从88.58%提高到了89.82%，召回率提高了1.80%，表明所提出的方法有效地受益于更丰富的特征表示。预期地，使用ResNet-101使模型复杂度增加到70.7 M参数和301.4 G FLOPs，导致推理速度从9.4 FPS下降到5.8 FPS。尽管计算成本增加，但稳定的性能提升证实了我们的方法在不同主干网络上的鲁棒性，并且能够有效地利用更深层次的特征来处理具有挑战性的弯曲文本实例。表8. 在CTW1500数据集上使用不同主干网络的性能比较。P、R和F分别表示精确度、召回率和F分数。5. 失效分析尽管HFI-Former整体表现良好，但在某些情况下仍存在局限性（图8）。对于大规模文本或复杂纹理，WFE-Net对局部高频结构的高敏感性可能导致多个查询同时激活，从而导致重复检测。相反，低对比度情况下的漏检通常是由于在不良光照条件下的物理信号丢失造成的。当文本和背景高度相似时，退化的高频成分使得WFE-Net难以提取有效的增强锚点，而单独的FIRM模块无法完全从这些弱语义线索中恢复边界。总体而言，这些情况突显了在高细节敏感性和极端成像条件下的鲁棒性之间的权衡。图8. HFI-Former的典型失败案例。6. 讨论与结论本文解决了自然场景文本检测中的问题，即由于下采样和特征聚合导致的高频细节丢失，以及语义和结构信息之间缺乏协同性导致的语义-细节解耦。我们提出了HFI-Former，一个高频增强-特征交互Transformer框架，用于自然场景文本检测。核心创新在于在特征表示阶段整合了频域高频增强和语义感知的特征交互，从而提高了特征的整体结构敏感性和语义一致性。在框架设计方面，WFE-Net补偿了由于主干网络下采样导致的细节退化，而FIRM实现了高频结构和跨尺度语义信息之间的有效交互，增强了在复杂背景下的检测鲁棒性。采用多尺度可变形Transformer编码器来加强长距离依赖性建模，并结合基于分割和先验引导的回归策略来实现更精确的文本实例边界。实验结果表明，我们的方法在CTW1500、Total-Text和ICDAR2015数据集上的表现优于现有方法。这完全验证了所提出框架及其关键模块的有效性和泛化能力。尽管在信号严重退化的极端情况下（如非常低的对比度），模型仍可能漏检，但失败分析表明我们的方法为高频特征补偿提供了有效的解决方案。未来的工作将探索基于扩散模型的数据增强策略来处理极端退化情况。我们还将专注于高频增强和特征交互模块的轻量化设计。这些努力旨在进一步提高模型的鲁棒性和实际部署的适用性。

热点排行