通过一个考虑最优特征子空间的相似性学习框架来改进图像与文本的对齐效果

《Science China-Information Sciences》:Improving image-text alignment with an optimal feature sub-space-aware similarity learning framework

【字体: 时间:2026年04月25日 来源:Science China-Information Sciences 7.6

编辑推荐:

  图像-文本对齐的关键在于捕捉局部子空间的语义信息,现有方法直接使用完整特征空间导致细粒度对齐不足。本文提出OPEN框架,通过构建层次化子空间模式,优化子空间选择与组合策略,在典型数据集上实现一致显著性能提升。

  

摘要

图像与文本的对齐是一个基本的跨模态研究课题,旨在连接视觉和语言。其核心挑战在于准确测量这两种异构模态之间的相似性。对于视觉和文本特征,大多数现有方法使用余弦距离或欧几里得距离来衡量相似性,这些方法直接在完整的表示空间中分析模态特征。然而,我们发现部分局部维度(形成具有潜在语义表示倾向的子空间)包含更重要的语义测量信息。因此,我们认为现有方法未能关注由部分维度组成的关键子空间的精细对齐,从而导致相似性学习的局限性和不准确性。为了解决这个问题,我们提出了一个新颖的最优特征子空间感知相似性学习框架(OPEN),该框架进一步关注模态表示内部的局部维度所构成的子空间,从而实现更微妙的语义对齐和相似性测量。具体来说,我们首先构建了用于学习相似性的分层子空间感知模式,即由不同大小的局部维度组成的子空间。然后,从开放性的角度来看,OPEN有两个新的方面:(1)最优子空间感知模式,我们确定了子空间模式中哪种大小的局部维度最有可能实现最佳的性能提升;(2)最优组合子空间感知模式,我们挖掘了不同大小级别模式之间的最佳互补性。所提出的OPEN具有即插即用的优点,并且我们在典型的跨模态对齐范式和数据集上对其进行了广泛实验。OPEN在不同设置下均表现出一致且显著的性能提升,证明了其在简单性、通用性和有效性方面的优越性。

图像与文本的对齐是一个基本的跨模态研究课题,旨在连接视觉和语言。其核心挑战在于准确测量这两种异构模态之间的相似性。对于视觉和文本特征,大多数现有方法使用余弦距离或欧几里得距离来衡量相似性,这些方法直接在完整的表示空间中分析模态特征。然而,我们发现部分局部维度(形成具有潜在语义表示倾向的子空间)包含更重要的语义测量信息。因此,我们认为现有方法未能关注由部分维度组成的关键子空间的精细对齐,从而导致相似性学习的局限性和不准确性。为了解决这个问题,我们提出了一个新颖的最优特征子空间感知相似性学习框架(OPEN),该框架进一步关注模态表示内部的局部维度所构成的子空间,从而实现更微妙的语义对齐和相似性测量。具体来说,我们首先构建了用于学习相似性的分层子空间感知模式,即由不同大小的局部维度组成的子空间。然后,从开放性的角度来看,OPEN有两个新的方面:(1)最优子空间感知模式,我们确定了子空间模式中哪种大小的局部维度最有可能实现最佳的性能提升;(2)最优组合子空间感知模式,我们挖掘了不同大小级别模式之间的最佳互补性。所提出的OPEN具有即插即用的优点,并且我们在典型的跨模态对齐范式和数据集上对其进行了广泛实验。OPEN在不同设置下均表现出一致且显著的性能提升,证明了其在简单性、通用性和有效性方面的优越性。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号