结合上下文图增强器和共识-差异融合的双流频域框架，用于跨视图地理定位

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Visual Communication and Image Representation》：Dual-stream frequency-domain framework with contextual graph enhancer and consensus-difference fusion for cross-view geo-localization

【字体：大中小】 时间：2026年04月24日 来源：Journal of Visual Communication and Image Representation 3.1

编辑推荐：

　　跨视角地理定位通过多视角图像（地面/卫星）识别同一目标位置，应用于自动驾驶和灾害监测。该方法面临复杂遮挡导致信息丢失和视觉一致高相似区域匹配模糊两大挑战。本文提出DFCDNet双流频域框架，结合GeoCNN提取局部精细特征和GeoMamba增强全局上下文，通过Cross-Branch Attention减少冗余，Contextual Graph Convolutional Enhancer加强多尺度空间特征融合，Consensus-Difference Integration Module自适应融合跨视角特征，有效解决复杂遮挡和视觉一致高相似区域匹配难题，实验表明其优于现有方法。

高文博|李海彤|马朝阳|王月环|王云涛|魏若楠

中国湖北省武汉市洪山区珞喻路1037号，华中科技大学人工智能与自动化学院，多光谱信息智能处理技术国家重点实验室

摘要

跨视图地理定位技术通过交叉视角的图像（地面/卫星）来定位同一目标，服务于自动驾驶和灾害监测。该技术面临两个关键挑战：复杂遮挡导致的信息丢失，以及视觉上高度相似区域中的匹配歧义。为了解决这些问题，我们提出了DFCDNet，这是一个具有上下文图增强器和共识差异融合的双流频域网络。这一动态交互框架包括GeoCNN和频率优化的GeoMamba：GeoCNN捕获具有区分性的局部细粒度特征，而GeoMamba通过频域增强来弥补其固有的二维空间限制，保留了被遮挡区域的全局结构信息。跨分支注意力（CBA）结合对比损失减少了分支间的冗余，并分离了全局与局部特征学习。上下文图卷积增强器（CGCE）建立了动态的区域节点连接，以加强长/短距离依赖性。共识差异整合模块（CDIM）通过放大共享的区分性线索并保留视图特定的细节，自适应地融合了跨分支特征，同时在高度相似的区域中抑制噪声。在CVUSA、CVACT、University-1652和VIGOR数据集上的实验验证了我们框架的优越性能。

引言

跨视图地理定位利用从不同视角（如地面、无人机和卫星）捕获的图像来识别目标位置。这项技术在户外救援、自动驾驶和灾害监测等领域具有巨大潜力。然而，信息不足是跨视图地理定位中的一个关键且普遍存在的挑战，主要体现在两个方面：（1）图像中的遮挡（如密集建筑和茂密植被）导致关键特征区域的信息丢失，影响模型对遮挡区域的理解及其学习区分性特征表示的能力；（2）某些图像区域由于纹理、颜色或其他视觉属性的一致性而表现出高度相似性，导致缺乏区分性信息，增加了定位难度。

以往的研究[1]、[2]、[3]使用手工制作的基于特征的方法在地面到地面的地理定位任务中取得了一些成功，但在卫星到地面的场景中难以处理显著的视角变化。最近，深度学习模型在地理定位任务中取得了显著进展。然而，对于信息有限的图像，这些模型需要全面学习跨区域的多维关系以减轻局部遮挡的影响。虽然卷积神经网络（CNN）[3]、[4]、[5]可以通过增加网络深度来捕获全局和上下文信息，但过深的架构可能会导致关键局部细节的丢失，从而降低性能。变换器模型[6]、[7]、[8]、[9]使用自注意力和位置编码来改善全局特征表示，但其统一的标记处理和高计算成本限制了其在现实世界中的应用。

先前的研究已经证明了上下文信息在地理定位任务中的重要性。为了平衡上下文学习和计算效率，我们将Mamba[10]、[11]集成到CNN框架中。作为状态空间模型，Mamba在保持几乎线性可扩展性的同时，表现出出色的长距离依赖性建模能力。然而，由于其一维扫描方法，Mamba对图像中二维空间结构信息的感知相对较弱[12]、[13]，这对跨视图地理定位是一个关键限制。为了解决这些问题，我们提出了DFCDNet，这是一个具有双向交互的双流频域框架（如图1所示），它解决了Mamba固有的二维空间感知缺陷以及由遮挡和高度相似区域中的匹配歧义引起的信息丢失问题。DFCDNet的设计逻辑是从构建核心的双流特征提取框架开始，然后针对这一框架的关键限制进行有针对性的缺陷补偿，最后实现自适应的跨视图特征融合。首先，双流特征提取基础包括一个GeoMamba分支和一个GeoCNN分支：GeoMamba分支通过可学习的频域单元（LFU）进行优化，以捕获全局长距离上下文，同时补偿其二维空间细节的丢失（LFU仅应用于第3阶段和第4阶段，以避免破坏低级特征的空间完整性）；GeoCNN分支通过空间注意力模块进行增强，以提取具有区分性的局部细粒度细节，形成视图不变的互补特征表示。在此基础上，特征增强层结合了跨分支注意力（CBA）和上下文图卷积增强器（CGCE），以减少分支间特征冗余，并弥补频率增强型GeoMamba分支的短距离空间依赖性差距，加强了对被遮挡区域和高度相似区域中细粒度上下文信息的捕获。最后，基于共识差异整合模块（CDIM）构建了跨视图自适应融合层，该模块整合了视图共享的区分性信息并保留了视图特定的互补细节，避免了传统刚性融合操作引起的语义丢失，输出最终的区分性跨视图特征。

总结来说，本文的主要贡献如下：

我们提出了DFCDNet，这是一个集成GeoMamba和GeoCNN的双流频域框架。跨分支注意力（CBA）实现了双向特征交互，形成了跨视图地理定位的互补表示。
我们引入了上下文图卷积增强器（CGCE），它通过图卷积动态构建区域节点之间的长/短距离连接，增强了多尺度空间特征整合和细粒度上下文捕获。
我们设计了共识差异整合模块（CDIM），利用可学习的权重和门控机制突出共同特征并保留视图特定的互补细节，实现了高效且无冗余的特征融合。
在多个数据集上的实验结果表明，我们的方法优于现有方法，验证了DFCDNet在解决跨视图地理定位核心挑战方面的有效性。

部分摘录

跨视图地理定位

在跨视图地理定位中，提取对视角变化不敏感的区分性特征至关重要。早期方法依赖于手工制作的特征[1]、[2]、[3]，这些方法缺乏对图像的深度语义理解，在视角变化较大时表现不佳。随着深度学习的进步，这一领域进入了新的阶段：首先应用了CNN[5]和变换器[7]，取得了有希望的结果。例如，MCCG[14]实现了空间上的跨维度交互

初步介绍：Mamba

Mamba基于离散化的SSM构建，如方程（1）所示。

h_{t} = \overset{?}{A} h_{t} + \overset{?}{B} x_{t}

y_{t} = C h_{t} + D x t

y_{t} = C h_{t}

t

h

表示时间步长

t

时的离散化隐藏状态，A?表示状态转移矩阵，由

\overset{?}{A} = e^{A Δ}

给出。

Δ

是采样周期。B?表示控制矩阵，通常使用

\overset{?}{B} = 0_{Δ}^{e A τ B d τ}

计算得出。上述离散化方法必须确保输入在

Δ

采样周期内保持不变。

SSM实现了涉及长期上下文的线性时间推理。然而，它们的

实验设置和结果

在我们的实验中，我们在CVUSA [53]、CVACT [41]、University-1652 [54]和VIGOR [55]基准数据集上评估了DFCDNet的性能，并将其与其他现有方法进行了比较。此外，我们还进行了消融研究以验证所提出方法的有效性。

结论

本文提出了DFCDNet，这是一个具有上下文图对比增强器和共识差异整合模块的双流频域框架，用于跨视图地理定位。DFCDNet捕获了全局和局部特征，以应对遮挡和高度相似区域的挑战。GeoMamba分支通过频域信息增强全局上下文，而GeoCNN分支专注于局部细粒度细节。CGCE和CDIM进一步增强了模型的能力

CRediT作者贡献声明

高文博：撰写——原始草案、可视化、验证、软件、资源、形式分析、数据整理。李海彤：监督、概念化。马朝阳：监督、方法论、概念化。王月环：撰写——审阅与编辑、验证、监督、概念化。王云涛：方法论、调查。魏若楠：资源、方法论、概念化。

利益冲突声明

作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言