Lite-SignVLM:一种面向效率的手语识别框架,采用时间序列故事板技术

《IEEE Access》:Lite-SignVLM: An Efficiency-Oriented Framework for Sign Language Recognition with Temporal Storyboards

【字体: 时间:2026年06月04日 来源:IEEE Access 3.6

编辑推荐:

   摘要:近年来,手语识别(SLR)系统取得了显著进展;然而,在需要低延迟、离线操作以及在资源受限设备上运行的实际应用场景中,其部署仍然具有挑战性。尽管基于大型Transformer和视觉语言模型的系统能够实现较高的识别准确率,但它们对计算成本高昂的模型架构的依赖导致了较高的内存使

  

摘要:

近年来,手语识别(SLR)系统取得了显著进展;然而,在需要低延迟、离线操作以及在资源受限设备上运行的实际应用场景中,其部署仍然具有挑战性。尽管基于大型Transformer和视觉语言模型的系统能够实现较高的识别准确率,但它们对计算成本高昂的模型架构的依赖导致了较高的内存使用量和推理开销。此外,诸如模型大小、GFLOPs(浮点运算次数)和推理延迟等关键效率指标往往没有得到报告。在这项工作中,我们通过提出一个全面的、以效率为导向的手语识别压缩框架来解决这些限制。我们从一个高精度的教师模型(如SignVLM)出发,利用三种互补策略将知识提炼到轻量级的学生模型中。首先,我们引入了一种基于故事板的视频表示方法,将手语的完整时间进程编码为单个结构化的RGB图像。其次,我们通过比较在不同解码器保留率下的CLIP和EfficientNet模型架构来进行系统的架构提炼。第三,我们对训练后的FP16转换和INT8量化进行了详细研究。在KArSL-502数据集上进行的实验表明,保留完整的时间输入运动信息使得学生模型能够在显著降低复杂度的同时达到或超过教师模型的准确率。我们最佳配置的模型仅具有538万个参数、15.45MB的磁盘大小和0.43 GFLOPs的运算能力,却实现了99.34%的Top-1准确率。虽然FP16转换在不同架构上都能保持准确率,但INT8量化表现出依赖于架构的特性:基于EfficientNet模型的模型保持了较高的识别准确率,而基于CLIP模型的模型则由于异常激活效应而出现严重的识别性能下降。总体而言,这项工作为设备上的手语识别系统提供了一条清晰且可部署的路径...
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:摘要:通

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号