SLICE:一种高效且无需调优的关键帧采样框架,用于长格式视频理解

《IEEE Access》:SLICE: An Efficient and Tuning-Free Keyframe Sampling Framework for Long-Form Video Understanding

【字体: 时间:2026年04月08日 来源:IEEE Access 3.6

编辑推荐:

  摘要:将长视频高效地提取出具有语义意义的关键帧对于使用大型多模态模型(LMMs)进行有效的视频问答(VideoQA)至关重要。然而,现有的采样策略存在超参数不稳定的问题,严重依赖于手动调整超参数或针对特定数据集的校准。为了解决这些限制,我们提出了SLICE(语义长度独立的内容提取

  

摘要:

将长视频高效地提取出具有语义意义的关键帧对于使用大型多模态模型(LMMs)进行有效的视频问答(VideoQA)至关重要。然而,现有的采样策略存在超参数不稳定的问题,严重依赖于手动调整超参数或针对特定数据集的校准。为了解决这些限制,我们提出了SLICE(语义长度独立的内容提取器,Semantic Length-Independent Content Extractor),这是一个无需参数的框架。SLICE的核心机制是基于视频长度引入了对数尺度自适应平滑处理(σ=ln(N)),并通过信息密度划分来逻辑地分配有限的令牌预算。SLICE根据实际的语义能量质量而不是均匀的时间间隔对视频进行划分,将关键帧集中在复杂事件片段中,并积极剔除静态背景,从而确保了时间多样性和语义相关性。实验结果表明,SLICE的性能显著优于对超参数敏感的现有最先进方法(SOTA)。特别是在稀疏事件定位任务中,SLICE在HAYSTACK-LVBENCH测试中取得了高达80.2%的出色视觉分数(F1),同时在计算开销上也有显著降低。这些发现证明了SLICE是一个高度可扩展的、即用型解决方案,适用于现实世界的LMM部署。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号