面向跨模态检索(Cross-Modal Retrieval)的深度邻域相似度保持哈希(Deep Neighborhood-similarity Preservation Hashing, DNsPH)方法

《Computers》：Deep Neighborhood-Similarity Preservation Hashing for Cross-Modal Retrieval

【字体：大中小】 时间：2026年06月10日 来源：Computers 4.2

编辑推荐：

　　摘要：鉴于存储开销低且查询效率高，跨模态哈希(Cross-Modal Hashing)在多模态数据检索中备受关注。然而，现有哈希方法面临若干挑战：主要挑战之一在于忽略了多模态信息中局部与非局部邻域结构关系，导致难以在异质模态(Heterogeneous Mod

摘要：鉴于存储开销低且查询效率高，跨模态哈希(Cross-Modal Hashing)在多模态数据检索中备受关注。然而，现有哈希方法面临若干挑战：主要挑战之一在于忽略了多模态信息中局部与非局部邻域结构关系，导致难以在异质模态(Heterogeneous Modalities)间建立细粒度语义一致性关联；此外，训练样本数量不平衡也限制了检索性能的提升。针对上述问题，研究人员提出一种用于跨模态检索的深度邻域相似度保持哈希(Deep Neighborhood-similarity Preservation Hashing, DNsPH)方法。为获取图像的高阶统计特征，研究人员首先设计了一种上下文感知跨层双线性融合网络(Context-aware Cross-layer Bilinear Fusion Network, C2BF-Net)，利用长短期记忆网络(Long Short-Term Memory, LSTM)对不同卷积层的上下文依赖特征进行建模。进而，通过自适应加权策略融合图像、文本及语义标签信息以重构联合语义相似度矩阵(Joint Semantic Similarity Matrix)，挖掘不同模态间的细粒度邻域结构。最后，研究人员引入基于自适应边界(Adaptive Margin)的多相似度损失(Multi-Similarity Loss)对信息量大的样本对进行挖掘与加权，以缓解样本不平衡对模型训练的影响，从而生成更具判别力的哈希码(Hash Codes)。在MIRFLICKR-25K与NUS-WIDE数据集上的大量实验表明，DNsPH优于现有的跨模态检索方法。

论文解读：面向跨模态检索的深度邻域相似度保持哈希(DNsPH)方法研究解读

一、研究背景与问题提出

随着大数据时代多媒体数据爆炸式增长，跨模态检索(Cross-Modal Retrieval, 如以文检图、以图检文)需求日益增加。现有跨模态检索面临两大根本问题：一是异质间隙(Heterogeneity Gap)，即不同模态数据分布与特征表示不一致；二是语义鸿沟(Semantic Gap)，即底层特征与高层语义概念不匹配。跨模态哈希通过将各模态映射至共同汉明空间(Hamming Space)并利用汉明距离度量相似度来缓解上述问题。现有监督哈希方法多依赖基于标签的二值相似度矩阵构建关联关系，仅能提供粗粒度语义指导，无法捕捉细微语义差异；且单纯基于特征余弦距离的相似度矩阵只考虑局部点对关系，忽略了样本与其邻域样本间的非局部邻域结构(Non-local Neighborhood Structure)关系。此外，语义标签的长尾分布(Tail Distribution)造成训练时模型偏向主导类别，影响所学哈希码的判别力。为此，研究人员开展本研究，提出深度邻域相似度保持哈希(Deep Neighborhood-similarity Preservation Hashing, DNsPH)方法，发表于《Computers》。研究结论表明，通过融合图像、文本与标签信息重构含高阶邻域结构的联合语义相似度矩阵，并结合自适应边界多相似度损失进行哈希码学习，可有效弥合异质间隙、捕获细粒度跨模态关联并缓解样本不平衡，在基准数据集上取得优于现有方法的检索性能。

二、主要关键技术方法

研究人员采用MIRFLICKR-25K（保留20,015对图文，测集2,000，训练10,000）与NUS-WIDE（21类共195,834对，测集2,100，训练10,500）作为样本队列。关键技术包括：(1) 设计上下文感知跨层双线性融合网络(C²BF-Net)，以VGG-16为骨干提取末三层卷积特征，经Hadamard积做跨层局部交互、Outer积捕获全局层间高阶特征，将多层特征序列输入双层LSTM建模跨层上下文依赖，后经矩阵平方根与L₂归一化得增强双线性池化特征，再经sign函数生成图像哈希码；(2) 文本通过词袋模型(Bag-of-Words, BoW)向量化后经多层感知机(Multi-Layer Perceptron, MLP)编码得文本哈希码；(3) 基于图像与文本特征相似度矩阵S^I、S^T分别乘其转置引入非局部邻域信息得S?^I、S?^T，计算注意力权重后自适应融合，结合标签引导相似度矩阵L与图文共现矩阵重构一阶联合语义相似度矩阵，再对每行视为特征向量计算二阶邻域结构得最终联合语义相似度矩阵S；(4) 引入基于文本先验相似度的自适应边界(Adaptive Margin)替代固定边界进行样本对挖掘(Pair Mining)，按General Pair Weighting(GPW)框架对正负样本对加权，构造多相似度损失(Multi-Similarity Loss)优化哈希函数。模型基于PyTorch用Adam优化器训练，图像学习率10^-5、文本10^-4，批次256，迭代120轮。

三、研究结果

4.1 数据集(Datasets)

按照DCMH等经典工作设置划分MIRFLICKR-25K与NUS-WIDE的训练集、检索集与测试集。

4.2 实验设置(Experimental Settings)

评估指标采用平均精度均值(mean Average Precision, mAP)、归一化折损累积增益(Normalized Discounted Cumulative Gain, NDCG@1000)、Precision–Recall曲线及TopN–Precision曲线。C²BF-Net提取4096维视觉特征，MIRFLICKR-25K与NUS-WIDE文本BoW维度分别为1386与1000。

4.3 基线方法描述(Baselines Description)

与DCMH、SSAH、CMHH、AGAH、DJSRH、JDSH、DCHUC、MESDCH、CMMQ、Bi-NCMH、SMMH、RDPH共12种基线方法对比。

4.4 与基线方法的对比(Comparison with Baselines)

在MIRFLICKR-25K上，图像检文本(Image-to-Text, I2T)任务16/32/64比特哈希码mAP较次优MESDCH分别提升2.9%、3.5%、2.4%；文本检图像(Text-to-Image, T2I)较次优SSAH分别提升0.5%、1.9%、2.6%。在NUS-WIDE上I2T与多数基线相当（16比特略低于MESDCH），T2I任务全面优于基线。Precision–Recall与TopN–Precision曲线及NDCG@1000结果表明DNsPH保持更优语义并保持检索鲁棒性。性能提升源于细粒度邻域结构捕捉、图文标签联合矩阵及自适应多相似度损失缓解样本不平衡。

4.5 消融实验(Ablation Studies)

设DNsPH-I(仅图像相似度)、DNsPH-T(仅文本)、DNsPH-IT(图文无高阶S^HL)、DNsPH-FM(多相似度损失用固定边界)、DNsPH-w/o-H(无C²BF-Net高阶特征)。结果显示完整DNsPH优于各变体，证实联合语义相似度矩阵有效性、自适应边界多相似度损失优於固定边界、C²BF-Net高阶跨层交互及上下文建模对生成判别哈希码的贡献；NUS-WIDE上64比特轻微下降归因于自适应融合引入模态噪声干扰标签主导学习。

4.6 参数敏感性(Parameters Sensitivity)

4.6.1 缩放因子γ影响：MIRFLICKR-25K上γ从0.01增至1时性能显著提升，γ=1时达最优；NUS-WIDE除16比特γ=0.01时较差外其余稳定，合适γ可控制内积梯度范围改善性能。

4.6.2 最大边界m_max与衰减系数λ影响：MIRFLICKR-25K上当m_max∈[0.8,1.0]、λ∈[4,5]时预测效果最佳，NUS-WIDE同区间亦表现良好。

4.6.3 α、β、γ'（平衡低阶与高阶及标签融合权重）影响：MIRFLICKR-25K上α=0.5、β=0.3、γ'=0.2时mAP最优，说明恰当权衡低阶/高阶相似度矩阵及语义监督与多模态融合信息的重要性。

4.7 可视化分析(Visualization Analysis)

t-SNE将16比特哈希码映射二维空间显示，DNsPH较MESDCH与DCHUC同类更紧凑、异类更分散，验证联合语义相似度矩阵与自适应边界多相似度损失使特征具更好类内聚集与类间分离性。

4.8 算法效率(Algorithm Efficiency)

因二阶池化策略训练时间略长于部分基线但不影响在线检索；推断阶段编码时间15–25 ms，查询高效。C²BF-Net去除VGG-16末三层全连接层参数量显著低于部分基线，Hadamard积与Outer积不改变参数量但增加计算复杂度(FLOPs)。

4.9 基于Wilcoxon符号秩检验的统计学显著性分析(Statistical Significance Analysis via Wilcoxon Signed-Rank Tests)

各基线p值均小于0.05，拒绝原假设，DNsPH性能提升具统计显著性。

4.10 注意力热图分析(Analysis of Attention Heat Maps)

Grad-CAM可视化显示C²BF-Net能准确定位图像中具语义描述性的目标物体，即便多目标共存亦可分别捕获，证明网络有效提取细粒度高层语义视觉特征。

四、讨论与结论翻译

讨论指出，在传统点对相似度哈希基础上引入非局部邻域相似度矩阵增强了样本邻域结构高阶建模能力；基于分布的样本对加权提升对信息样本对的动态选择能力；将传统固定阈值改为基于先验相似度的自适应阈值优化多相似度损失，缓解样本冗余与不平衡负面影响，生成具判别力哈希码。该方法在有限算力环境下达成检索效率与准确率满意平衡，但在用户标注极少、图像信息远超文本时基于文本相似度的自适应边界机制待进一步验证，未来将在MS-COCO与IAPR TC-12上扩展评估。

结论译文：本文提出一种深度邻域相似度保持哈希(Deep Neighborhood-similarity Preservation Hashing, DNsPH)方法。研究人员首先设计基于长短期记忆网络(LSTM)的上下文感知跨层双线性融合网络(C²BF-Net)以获取高阶视觉特征；进而通过自适应加权策略融合图像、文本及标签重构语义增强的联合相似度矩阵，充分挖掘不同模态间细粒度邻域结构；最后引入基于自适应边界(Adaptive Margin)的多相似度损失精确挖掘与加权样本对，生成判别哈希码(Hash Codes)。在两个数据集上的广泛实验表明，所提DNsPH优于其他基线方法。

热点排行