理解复杂查询:用于时间句法消解的多查询理解网络

《Expert Systems with Applications》:Understanding Complex Queries: Multi-Query Comprehension Network for Temporal Sentence Grounding

【字体: 时间:2026年04月06日 来源:Expert Systems with Applications 7.5

编辑推荐:

  时空句子接地任务中,视频常对应多个语义相关查询,但现有方法独立处理视频-查询对,忽略多查询间的语义关联。本文提出多查询理解网络MQCN,通过查询上下文总结器(QCS)聚合多查询语义,结合轻量级答案生成器(LAG)优化视频表征,并设计自适应内容过滤器(SACF)抑制无关背景。该框架遵循"先理解查询再决策"的人类认知模式,迭代执行N1次粗到细的联合优化,在TACoS和ActivityNet Captions数据集上达到新SOTA,在Charades-STA上保持竞争力。

  
Zan Gao|Shengbo Xiong|Yibo Zhao|Chunjie Ma|Tian Gan|Riwei Wang
天津工业大学,中国天津市西青区滨水西路391号,300384

摘要

时间句定位(TSG)旨在从未裁剪的视频中检索与给定查询相对应的视频片段。在实际应用中,视频内容通常与多个查询相匹配;然而,现有方法通常独立处理每个视频-查询对,未能充分利用多个查询之间的语义关联。为了解决这个问题,我们提出了一个多查询理解网络(MQCN),该网络在多个查询和单个视频之间进行联合模态融合,以提取更丰富、更精确的语义表示。我们模型的设计灵感来源于人类的视频检索方式:首先粗略浏览视频和查询上下文,然后详细分析查询问题,最后结合问题来理解视频内容。具体来说,我们引入了一个查询上下文总结器(Query Context Summarizer)来捕捉多个查询的上下文语义。此外,我们还提出了一个基于总结的自适应内容过滤器(Summary-Guided Adaptive Content Filter),该过滤器能够使查询和视频特征之间进行交互,从而自适应地抑制无关背景内容并增强细粒度的视频表示。最后,我们引入了一个轻量级答案生成器(Lightweight Answer Generator),在保持模型大小紧凑的同时生成高效的候选片段。我们的方法在TACoS和ActivityNet Captions数据集上取得了优于现有方法的性能,并在Charades-STA数据集上也展示了有竞争力的结果。

引言

随着在线视频的爆炸性增长,通过自然语言查询定位特定片段变得越来越重要。时间句定位(TSG)的任务就是找到与文本查询相匹配的视频片段。然而,由于需要精确的跨模态对齐和细粒度的时间推理,TSG仍然具有挑战性。因此,开发能够充分利用丰富视频-查询语义的模型仍然至关重要。
以往的方法(Gao等人,2017年;Hendricks等人,2017年)通常采用一对一的设置,即一个视频与一个查询文本配对进行模型训练。但在现实场景中,一个视频往往对应多个查询注释;将查询分开并分别训练可能会导致在语义相似的上下文中产生混淆。例如,对于查询“Person puts their bag on the shelf”,模型可能会错误地检索到“Person opened the bag placed on the shelf”这一片段,因为“put”和“open”这两个动作在视觉上相似。因此,我们认为结合多个查询可以更全面地理解视频内容。因此,我们的方法采用了一对多的范式,即一个视频与多个查询一起进行训练。此外,当人类处理视频检索任务时,他们通常会先粗略浏览查询和视频,然后详细分析查询,最后做出最终定位决策。我们的方法旨在遵循这种认知模式以实现更准确的定位。
为了解决上述挑战,我们提出了一个名为多查询理解网络(MQCN)的一对多模型,其结构如图1所示。MQCN包括两个阶段。第一阶段使用一个粗略浏览器来初步理解视频和查询。第二阶段首先强调多查询信息的总结,以获得细粒度的查询表示和总结特征,这些特征随后用于辅助理解视频内容。此外,第一阶段和第二阶段的粗到细策略会迭代执行N1次。具体来说,我们首先使用预训练的网络从视频及其关联的多个查询中提取特征。由于Mamba在视频理解任务中的出色表现(Chen等人,2024年;Gu & Dao,2023年),我们将其作为我们的粗略浏览器。在第二阶段,我们引入了一个查询上下文总结器(Query Context Summarizer,QCS),它总结了所有查询的语义信息,以获得细粒度的查询表示和总结特征。同时,我们还引入了基于总结的自适应内容过滤器(Summary-Guided Adaptive Content Filter,SACF),该模块可以减轻跨模态交互带来的噪声,并利用总结特征指导模型自适应地抑制无关背景内容,从而改善视频表示。此外,为了减少现有2D时间图生成方法的冗余和高参数开销,我们设计了一个轻量级答案生成器(Lightweight Answer Generator,LAG),在保持强大检索性能的同时显著降低了模型复杂度。总之,我们的主要贡献如下:
  • 我们提出了一个名为多查询理解网络(MQCN)的一对多模型,强调理解多个查询以帮助准确定位目标视频片段。
  • 我们设计了查询上下文总结器(QCS)和基于总结的自适应内容过滤器(SACF),以跨模态提取细粒度表示,并实现了“在做出选择之前先理解问题”的决策机制。此外,我们还引入了轻量级答案生成器(LAG),在保持模型大小紧凑的同时生成高质量的候选片段集。
  • 我们的模型在TACoS和ActivityNet Captions数据集上取得了新的最佳性能,同时在Charades-STA数据集上也展示了有竞争力的结果。
  • 部分摘录

    一对一模型

    一些先前的工作(Sun, Gao, Zhu, Wang, Zhou, 2023a; Sun, Gao, Zhu, Wang, Zhou, 2023b; Sun等人,2022年;Xiao等人,2021年;Zhang, Peng, Fu, Lu, & Luo,2022年;Zhang等人,2020b年)采用了一对一的训练范式,即模型在一个视频与一个查询文本上训练。为了处理高度相似的视觉内容,一些方法(Lin等人,2023年;Liu等人,2024年;Lu, Chen, Tan, Li, & Xiao,2019年)引入了前景-背景分类损失来分离

    问题表述

    TSG任务的目标是找到与查询语义匹配的视频片段的开始和结束时间(τs, τe)。我们将此任务扩展到一对多的设置:给定一个视频及其关联的查询,模型生成一组与每个查询语义对齐的(τs, τe)对。

    特征编码器

    根据以往的研究(Sun等人,2022年;Wang等人,2022年;Zhang等人,2020b年),我们使用预训练的C3D Tran, Bourdev, Fergus, Torresani, & Paluri(2015年)或I3D Carreira & Zisserman(2017年)提取视频特征

    数据集

    为了进行公平比较,我们在三个广泛使用的时间句定位数据集上进行了实验。
    Charades-STA数据集包含9,848个室内活动视频。其训练集包含12,408个视频-查询对,测试集包含3,720个视频-查询对。该数据集主要关注家庭环境中的日常活动,视频时长相对较短。
    TACoS数据集包含127个烹饪视频。其训练集包括10,146个视频-查询对

    粗略浏览器方案比较

    我们在表5中比较了不同的粗略浏览器方案。ActivityNet的结果显示,由于SSM在建模长序列方面的效率,Mamba比Transformer和Co-Attention表现得更好。

    QCS的优势

    我们评估了QCS的优势,结果见表6和表7。如表6所示,将QCS添加到基线模型(准确率为51.59%)后,准确率提高到了52.94%(+1.35%)。而单独使用SACF模块的准确率为51.24%,将其与QCS结合后,准确率显著提升至55.89%。这些结果

    结论

    在本文中,我们提出了一个用于时间句定位的一对多模型——多查询理解网络(MQCN),强调对每个视频中的多个查询进行细粒度理解。具体来说,我们设计了查询上下文总结器(QCS)和基于总结的自适应内容过滤器(SACF),以提取细粒度的跨模态表示,实现了“在做出选择之前先理解问题”的原则。轻量级答案生成器(LAG)生成高质量的候选答案集,同时保持模型大小紧凑。

    CRediT作者贡献声明

    Zan Gao:概念化、方法论、撰写——原始草稿。Shengbo Xiong:软件开发、调查、数据管理、撰写——原始草稿。Yibo Zhao:概念化、方法论、软件开发、形式分析、可视化、撰写——原始草稿、撰写——审阅与编辑、监督、项目管理。Chunjie Ma:验证、撰写——审阅与编辑。Tian Gan:资源管理、数据管理。Riwei Wang:监督、资金获取、撰写——审阅与编辑。

    利益冲突声明

    作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。
    相关新闻
    生物通微信公众号
    微信
    新浪微博

    热点排行

      今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

      版权所有 生物通

      Copyright© eBiotrade.com, All Rights Reserved

      联系信箱:

      粤ICP备09063491号