SAGE:一种基于语义引导的框架,采用解耦优化算法用于开放词汇表下的视频视觉关系检测
《Neural Networks》:SAGE: Semantic-Guided Framework with Decoupled Optimization for Open-Vocabulary Video Visual Relationship Detection
【字体:
大
中
小
】
时间:2026年05月31日
来源:Neural Networks 6.3
编辑推荐:
王世琪|薛伟颖|胡书毅|李浩文|刘琦•我们识别并分析了当前Open-VidVRD方法中的两个关键瓶颈:隐式对齐中的语义模糊性和耦合优化中的语义漂移。我们提出了一种新的框架,通过解耦优化策略来解决这些问题。•为了弥合视觉与语义之间的差距,我们提出了一种基于MLLM的语义教师模型。通
王世琪|薛伟颖|胡书毅|李浩文|刘琦
- •
我们识别并分析了当前Open-VidVRD方法中的两个关键瓶颈:隐式对齐中的语义模糊性和耦合优化中的语义漂移。我们提出了一种新的框架,通过解耦优化策略来解决这些问题。
- •
为了弥合视觉与语义之间的差距,我们提出了一种基于MLLM的语义教师模型。通过利用显式的语义推理来弥补时间动态的缺失,该模型显著增强了细粒度时空交互的表示能力。
- •
为了减轻由视觉噪声引起的语义漂移,我们引入了一种解耦的、具有类别意识的提示策略。通过利用TKE将提示与稳定的类别语义关联起来,该策略有效降低了噪声敏感性,并在处理长尾新类别时实现了最先进的性能。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号