面向任务的跨模态细化与液态融合用于文本-视觉定位

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Frontiers in Artificial Intelligence》：Task-aware cross-modal refinement and liquid fusion for text-visual grounding

【字体：大中小】 时间：2026年05月29日 来源：Frontiers in Artificial Intelligence 4.7

编辑推荐：

　　视觉定位（Visual Grounding，VG）旨在根据给定的文本描述在图像中定位目标物体，在自动驾驶和人机交互等领域有广泛应用。然而，现有的视觉定位模型仍面临三大主要挑战：（1）大多数先前工作采用独立的编码器分别处理图像和文本，这增大了视觉和文本特征之间的

视觉定位（Visual Grounding，VG）旨在根据给定的文本描述在图像中定位目标物体，在自动驾驶和人机交互等领域有广泛应用。然而，现有的视觉定位模型仍面临三大主要挑战：（1）大多数先前工作采用独立的编码器分别处理图像和文本，这增大了视觉和文本特征之间的语义鸿沟；（2）大型语言模型（Large-Language Models，LLMs）的使用导致参数过多，难以在轻量级设备上部署；（3）单层跨模态注意力机制不足以充分捕获跨模态的交互信息。为解决这些问题，本研究提出了任务感知液态跨模态网络（Task-aware Liquid Cross-modal Network，TLCN），该模型由四个关键模块组成：特征提取模块（Feature Extraction Module，FEM）、液态融合模块（Liquid Fusion Module，LFM）、任务感知跨模态细化模块（Task-aware Cross-modal Refinement Module，TCRM）和多层级定位模块（Multilevel Grounding Module，MGM）。具体而言，FEM利用文本特征指导视觉特征的提取，从而减小特征差距。LFM采用液态神经网络（Liquid Neural Networks，LNNs）来捕获时间依赖性并显著减少模型参数。此外，TCRM通过二级注意力机制深化文本表征，并设计了卷积-Transformer模块（Conv-Trans Blocks，CTBs）应用于图像数据以提取更深层的视觉特征。同时，引入了一种基于KL散度的相似性损失函数来优化跨模态对齐。该模型在三个广泛使用的公共基准数据集RefCOCO、RefCOCO+和RefCOCOg上进行了广泛评估。此外，还设计了一个专门的文本定位任务以进行进一步评估。实验结果表明，TLCN在所有评估的数据集和任务上均实现了优越的性能。

文本-视觉定位（Visual Grounding，VG）作为一项融合图像与文本模态进行分析的技术，在自动驾驶和机器人等领域具有广阔的应用前景。其核心任务是基于给定的自然语言描述，在图像中定位相应的目标区域。随着深度学习的快速发展，计算机视觉领域正经历着指数级的变革。在VG任务中，设计有效的图像-文本融合模型以准确识别图像中的物体至关重要。当前VG领域的模态融合方法主要包括三种架构：（a）使用独立编码器处理图像和文本，然后通过跨模态注意力机制进行交互，但这导致视觉与文本特征间存在过大的语义鸿沟；（b）在特征提取过程中利用文本信息调制视觉特征，随后进行单层跨模态交互，但此方法难以充分捕获模态间的交互信息；（c）先利用文本信息自适应地调节视觉特征，在跨模态交互后，通过独立的编码器进一步处理各模态的表征，同时显式建模其模态间依赖关系，这种架构设计通常能取得更优的性能。在深度学习中，数据、算法和算力是推动其持续演进的三大基本要素。大规模模型的出现为VG提供了新视角，利用这些模型进行知识蒸馏或全面的文本理解已成为新趋势。然而，尽管大模型能带来显著的性能提升，但其不断攀升的计算需求进一步限制了其在特定领域的应用。此前的研究主要聚焦于使用大模型理解文本与图像的融合，导致所需计算资源呈指数级增长，对模型效率构成重大挑战。受生物学启发，秀丽隐杆线虫仅用302个神经元就能完成运动、运动控制和导航。基于此，研究人员提出了液态神经网络，并将其架构应用于自动驾驶中的车道保持任务。该模型中的控制网络参数分别比LSTM和CTRNN少970倍和241倍，以极少的参数实现了卓越的性能，成功保持了正确的车道位置并展现出强大的泛化能力。Transformer模型已展现出强大的性能，并在各种多模态交互任务中取得了显著成功。跨模态Transformer正逐渐成为多模态情感识别和多模态行为分析等领域的主流交互方式。先前基于Transformer的模型试图改进图文交互，主要关注模态耦合。然而，这种方法倾向于从一个模态提取特征，导致另一个模态表征不足。结果，图像与文本之间的跨模态交互特征未能被充分捕获，造成文本或视觉信息表示不充分。此外，大多数现有VG模型仅依赖单层网络进行检测，导致缺乏深层的层次化表征，从而降低了模型的泛化能力。因此，为解决上述挑战，本研究提出了任务感知液态跨模态网络（TLCN）。具体而言，为减少文本与视觉信息之间的差距，研究人员采用文本特征指导图像特征的提取。为减轻大模型带来的计算负担，将框架与液态神经网络（LNNs）集成，并应用知识蒸馏将视频和文本模态的知识蒸馏到基于LNN的架构中。为充分捕获跨模态交互并在初次交互后进一步细化各模态，研究人员为每个模态设计了独立的编码器以加深其各自的表征，同时显式建模它们之间的相互相似性。对于文本，引入了一个可学习的标记来聚合融合特征，整合了句子级和词级表征。对于视觉，提出了卷积-Transformer模块（Conv-Trans Block，CTB）以进一步从视觉数据中提取通道级上下文信息。此外，为增强定位任务所需的深度信息，结合了上采样和池化操作，从而丰富了用于定位的深度感知表征。研究人员还构建了一个用于文本定位的数据集以验证模型在广义VG任务上的能力，标注了图像中手写文本的位置。总结而言，研究人员的贡献如下：提出了任务感知液态跨模态网络（TLCN），它集成了一种新颖的基于Transformer的融合方法。具体来说，引入了一个可学习标记，以同时捕获文本中的句子级和词级特征。对于视觉表征，设计了卷积-Transformer模块（CTB）以从图像中提取通道信息。所提出的模型集成了液态神经网络（LNNs）以降低计算需求，确保模型保持轻量级和高效。此外，在视觉特征上结合上采样和池化操作，以增强视觉定位任务所需的深度感知信息。在RefCOCO、RefCOCO+和RefCOCOg三个基准数据集上进行了广泛的实验。同时，设计了一个用于文本定位的广义视觉定位任务。实验结果表明所提模型具有优越的性能，消融研究也证实了每个模块的有效性。

本文所提模型主要依赖于以下关键技术方法：首先，设计了特征提取模块（FEM），采用文本特征通过知识蒸馏（知识蒸馏）的方式引导视觉特征提取，具体通过可学习参数（α_seg，α_mean）和单层前馈网络（Feed-Forward Network，FFN）生成缩放（γ）和偏移（β）参数，对视觉特征进行自适应调制，以缩小模态间的语义差距。其次，引入了液态融合模块（Liquid Fusion Module，LFM），采用参数高效的液态神经网络（Liquid Neural Networks，LNNs）处理经投影的视觉特征，其核心是利用液态时间常数（Liquid Time Constants，LTC）动态方程，并在模型中引入残差连接以稳定训练，此设计在保证序列数据理解能力的同时，显著降低了模型参数量，有利于轻量化部署。最后，在任务感知跨模态细化模块（TCRM）中，创新性地设计了二级注意力机制：第一级实现图文特征的标准交叉注意力交互；第二级则以可学习的[CLS]标记与视觉特征的拼接作为查询（Query），以句子级与词级文本特征的拼接作为键（Key）和值（Value），进行更深层次的文本特征自注意力细化。同时，为视觉特征设计了卷积-Transformer模块（Conv-Trans Block，CTB），通过分组卷积捕获多通道上下文信息。为优化跨模态对齐，引入了基于KL散度的双向分布相似性损失函数（L_sim）。研究样本队列来源于RefCOCO、RefCOCO+和RefCOCOg这三个公开的基准数据集。

**3.2 特征提取模块**
传统的特征提取方法通常采用独立的骨干网络分别提取文本和视频特征，这可能扩大图像和文本表征之间的语义鸿沟。为解决此问题，研究人员设计了一种新颖的特征提取方法，利用文本特征将知识蒸馏到图像特征中，从而使图像特征能够融入跨模态语义信息。具体而言，首先使用各自的骨干网络提取视觉（f_v）和文本特征（f_t），其中文本特征包含三种表征：句子级特征（f_seg^t∈?^1×d）、独立的词级特征（f_wor^t∈?^l×d）和平均池化的词级特征（f_mean^t∈?^1×d）。随后，设计了特征f_w^txt=α_seg?(f_seg^t)+α_mean?(f_mean^t)（其中?(·)为单层前馈网络），并基于此定义缩放参数γ=?(f_w^txt)+γ_learn和偏移参数β=?(f_w^txt)+β_learn。最终，视觉特征通过公式f_vis=γ(f_v?μ(f_v)/σ(f_v)+ε)+β进行调制，得到蒸馏后的视觉特征f_vis，该过程有效融合了文本语义信息。

**3.3 液态融合模块**
大型语言模型（Large-Language Models，LLMs）因其出色的文本理解能力而被广泛使用，但同时也带来了显著的性能需求。为解决模型参数问题，研究人员采用了小参数的液态神经网络（Liquid Neural Networks，LNNs）对图像-文本对信息进行深度提取。具体流程是：经FEM处理的特征f_vis首先通过视觉投影器（Visual Projector）映射，然后输入LNNs。采用液态时间常数（Liquid Time Constants，LTC）进行处理，并引入残差连接以缓解梯度消失问题。该模块可表示为f_vis^l=Project(f_vis)+NCPs(Project(f_vis))。所采用的LNNs所需参数仅为前馈网络（FFN）的一半，同时在序列数据理解上优于FFN。随后，LNNs提取的特征与文本特征拼接，并加入一个可学习的[CLS]标记，公式为f_tex^l=[f_cls^t, W_l(f_lnn), f_seg^t, f_wor^t]，以增强文本模态内的视觉信息表征。

**3.4 任务感知跨模态细化模块**
在获得文本特征f_tex^l和视觉特征f_vis^l后，大多数先前研究采用跨模态注意力机制进行特征融合。然而，仅依赖这种交互模式会引入过多冗余信息，干扰相关信号的交换。为此，研究人员为文本模态设计了二级注意力机制以提取更核心的特征信息，并为视觉模态提出了卷积-Transformer模块（Conv-Trans Block，CTB）以捕获图像不同通道的特征信息。首先，应用一级注意力机制实现图文交互：通过线性层将图文特征映射到固定维度空间，然后进行交叉注意力计算。以文本模态为例，一级注意力可表述为Q^tv=linear(f_tex^l), K^tv=linear(f_vis^l), V^tv=linear(f_vis^l)，并计算X^tv=Softmax(Q^tv·K^tv^T/√d_tv)V^tv。随后，为进行二级注意力计算，将f_cls^t与f_vis^l拼接形成查询（Query），将f_seg^t与f_wor^t拼接形成键（Key）和值（Value），从而计算文本内部的深层交互信息，得到精炼后的文本特征f_tex^*=Softmax(Q^tt·K^tt^T/√d_tt)V^tt。对于视觉模态，CTB将图像特征分成四部分，每部分使用卷积处理，再拼接恢复原状并加入残差连接。为缓解独立编码器可能带来的跨模态交互差距，设计了基于KL散度的相似性损失函数L_sim=D_kl(P_tv||P_vt)+D_kl(P_vt||P_tv)，其中假设两个模态的特征分布均服从正态分布x_k~N(x_k;μ_k,σ_k²)。较小的损失值表明两个特征分布的相似度更高。

**3.5 多层级定位模块**
为增强特征的深度，在将最终特征图输入定位模块前，研究人员对其进行上采样和池化操作。采用了基于锚框（anchor-based）的边界框回归头（源自YOLOv3），最终输出维度为K×A（A=3，K=5，对应(x, y, w, h, s)五个参数）。仅将与真实边界框具有最大交并比（Intersection over Union，IoU）的锚框指定为正样本，其余为负样本，以确保每个句子仅定位单一目标。总体损失函数定义为L=L_smooth?l1+L_GIoU+α*L_CE+β*L_sim，其中L_smooth?l1为平滑L1损失，L_GIoU为GIoU损失，L_CE为交叉熵损失，α和β为权重系数。

**4.3 实验结果与分析**
研究人员在RefCOCO、RefCOCO+和RefCOCOg三个数据集上报告了实验结果。首先，与采用传统架构（如VGG16和LSTM作为视觉和文本骨干，例如CMN，LGRAN）的模型相比，TLCN在所有指标上均表现更优，表明基于Transformer的预训练骨干能够比传统的基于卷积的特征提取网络提取更细粒度的特征信息。其次，与采用ResNet101和BERT作为骨干的模型（如NMTree，CMI，Word2Pix）相比，TLCN在所有指标上均超越这些模型。值得注意的是，Word2Pix模型在RefCOCO+数据集上的两个指标存在显著差异，表明可能存在过拟合问题，而TLCN则表现出更好的鲁棒性。与采用DarkNet53和GRU作为骨干的模型（如MCN，SeqTR）相比，TLCN也取得了最佳性能。最后，与同样使用基于Transformer骨干的模型（如TransVG++和QRNet）相比，TLCN在大多数指标上实现了最佳性能。例如，与QRNet相比，在RefCOCO测试集A和B指标上的差异仅为0.2和1个百分点。然而，借助LNNs，TLCN的模型参数显著少于上述模型，表明TLCN可在保持相当性能的同时部署在小型设备上，进一步证明了其优越性和可移植性。

**4.3.1 消融研究**
通过系统移除完整TLCN架构中的各个模块进行了消融研究。基线（Baseline）配置代表移除了所有提议模块的模型。结果显示，移除任何单个模块均会导致模型性能下降。其中，移除TCRM和Swin骨干时性能下降最为显著。这凸显了应用于文本特征的二级注意力计算所带来的巨大性能增益。移除LFN模块会导致性能下降约1个百分点，尽管其对绝对性能的影响相对较小，但LNNs的引入使模型能更彻底地理解图文交互，且仅带来边际参数增加。移除MGM模块导致约2个百分点的性能下降，表明MGM提供的嵌入使模型能获得更深层的图像信息，这对性能提升至关重要。移除CTB也导致约2个百分点的性能下降，表明CTB中的分组卷积操作使模型能更全面地捕获图像中的目标级信息。值得注意的是，当所有提议模块均被移除（即基线）时，模型性能下降约15个百分点，这确凿地验证了每个提议模块在提升模型整体性能方面的有效性和必要性。

研究人员还评估了相似性损失权重因子β对模型精度的影响。当β在{0, 0.2, 0.4, 0.6, 0.8, 1.0}范围内变化时，TLCN模型在β设置为0.4时达到最高精度。随着β值超过此最佳点持续增加，模型性能呈现一致下降趋势，这表明为相似性损失（L_sim）分配过高的权重可能导致模型学习到的特征产生更大偏差，从而阻碍整体性能。此分析证实了为L_sim选择适当权重以平衡特征学习目标的重要性。

为直观展示TLCN的优越性能并增强其模型可解释性，研究人员从RefCOCOg数据集选取了七个代表性样本进行可视化分析。结果表明，TLCN在大多数情况下成功实现了物体识别。然而，这些结果也揭示了模型预测和推理能力有待改进的方面。具体而言，在物体颜色与背景高度相似（案例(f)）以及物体遮挡严重的复杂场景（案例(c)和(d)）中，观察到性能下降。在这些具有挑战性的实例中，模型在识别目标物体时出现偏差。这一局限可能源于TLCN在训练过程中未采用复杂的颜色处理，且未能在这些场景中充分理解复杂的场景图谱。这些定性可视化结果不仅验证了所提方法在VG任务中优越的理解和推理能力，也展示了TLCN在视觉-语言任务中的泛化能力和可解释性。

为评估模型的泛化能力，研究人员设计了一个利用自定义手写签名数据集进行的文本定位任务。该数据集与典型的视觉定位任务结构一致，包含300个样本，每个样本包含一张签名图像和相应的描述性文本。数据集被随机划分为80%的训练集和20%的测试集。使用表1中指定的参数训练模型。最终结果为三次运行的平均值。结果显示Pr@0.5精度为69.62%。可视化确认模型成功定位了文本，表明其在特定人物手写签名识别这一下游任务中具有良好的性能潜力。

本文提出了任务感知液态跨模态网络（TLCN），该模型有效融合了图像和文本模态以解决视觉定位（VG）任务。TLCN架构主要由四个不同的模块组成：特征提取模块（FEM）、液态融合模块（LFN）、任务感知跨模态细化模块（TCRM）和多层级定位模块（MGM）。FEM利用文本特征指导图像特征的提取，从而缓解了两个模态之间的特征差距。LFN采用液态神经网络（Liquid Neural Networks，LNNs）处理数据，不仅捕获了时间动态特性，还显著减少了模型的参数数量。TCRM使用二级注意力机制深化文本特征表征，并通过专门设计的卷积-Transformer模块（Conv-Trans Block，CTB）提取深层视觉特征。该模块内还引入了基于Kullback-Leibler（KL）散度的相似性损失函数。MGM为模型提供了图像的深层层次信息。在三个基准视觉定位数据集上与其他基线模型的详细比较表明，TLCN在所有指标上均实现了优越的性能。消融研究证实了每个所提模块的有效性和必要性。此外，为验证模型的泛化能力，研究人员设计了一个文本定位任务，作为广义视觉定位任务的一种变体。实验结果表明，TLCN能够准确定位目标文本的特定位置，显示出在特定人物手写签名识别这一下游任务中具有良好的性能前景。

联系信箱：

粤ICP备09063491号

热点排行