SAGE:一种基于语义引导的框架,采用解耦优化算法用于开放词汇表下的视频视觉关系检测

《Neural Networks》:SAGE: Semantic-Guided Framework with Decoupled Optimization for Open-Vocabulary Video Visual Relationship Detection

【字体: 时间:2026年05月31日 来源:Neural Networks 6.3

编辑推荐:

  王世琪|薛伟颖|胡书毅|李浩文|刘琦•我们识别并分析了当前Open-VidVRD方法中的两个关键瓶颈:隐式对齐中的语义模糊性和耦合优化中的语义漂移。我们提出了一种新的框架,通过解耦优化策略来解决这些问题。•为了弥合视觉与语义之间的差距,我们提出了一种基于MLLM的语义教师模型。通

  
王世琪|薛伟颖|胡书毅|李浩文|刘琦
  • 我们识别并分析了当前Open-VidVRD方法中的两个关键瓶颈:隐式对齐中的语义模糊性和耦合优化中的语义漂移。我们提出了一种新的框架,通过解耦优化策略来解决这些问题。
  • 为了弥合视觉与语义之间的差距,我们提出了一种基于MLLM的语义教师模型。通过利用显式的语义推理来弥补时间动态的缺失,该模型显著增强了细粒度时空交互的表示能力。
  • 为了减轻由视觉噪声引起的语义漂移,我们引入了一种解耦的、具有类别意识的提示策略。通过利用TKE将提示与稳定的类别语义关联起来,该策略有效降低了噪声敏感性,并在处理长尾新类别时实现了最先进的性能。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号