综述:基于视频的手语识别深度学习方法综述:数据集、挑战与见解

《Multimodal Technologies and Interaction》:A Comprehensive Review of Deep Learning Approaches for Video-Based Sign Language Recognition: Datasets, Challenges and Insights

【字体: 时间:2026年06月10日 来源:Multimodal Technologies and Interaction 2.4

编辑推荐:

  本研究对2020年至2026年间发表的100余篇基于视频的手语识别(Sign Language Recognition, SLR)深度学习相关研究进行了系统性综述。分析聚焦于应用于视频手语识别的深度学习方法,涵盖时空特征提取、时序建模、注意力机制、基于运动的表

  
本研究对2020年至2026年间发表的100余篇基于视频的手语识别(Sign Language Recognition, SLR)深度学习相关研究进行了系统性综述。分析聚焦于应用于视频手语识别的深度学习方法,涵盖时空特征提取、时序建模、注意力机制、基于运动的表征、混合框架、迁移学习及其他相关方法。研究特别关注了这些方法如何对手语交流中的时空动态特性及细微手势特征进行建模。本综述强调了若干近期进展,包括专用数据集的引入、实时识别系统的出现以及多模态融合策略的集成。同时,领域内仍存在一些持续性挑战,包括低资源手语的数据稀缺、数据集的语言学标准化不足以及模型可解释性有限。研究结果凸显了开发能够处理多样化数据集和用户差异的可扩展、可泛化模型的重要性。本综述的核心贡献体现为四个方面:第一,对2020年至2026年间发表的100余项研究进行了全面综合,覆盖了视频手语识别领域的全谱系深度学习架构;第二,构建了结构化的六分类法,支持跨架构的系统比较;第三,全面关注现有文献中代表性不足的低资源手语;第四,对低资源手语的当前基准测试格局进行了批判性分析,识别了关键空白并规划了未来数据集开发的战略方向。这些贡献旨在引导后续研究开发出更鲁棒、更具包容性且普遍适用的手语识别系统。
  1. 1.
    引言
    手语识别(SLR)系统是构建包容性信息社会的核心技术工具,可为听障及言语障碍群体提供平等的数字化资源访问权限。视频手语识别的科学价值尤为突出,其需要适配特定词汇、语法及民族文化特征的专门化方法,而这些特征尚未被当前通用模型完全覆盖。手语是一种丰富且复杂的交流方式,涉及时空维度的手部运动、面部表情和身体姿态。实现有效识别需要将现代计算机视觉与自然语言处理(Natural Language Processing, NLP)技术相结合,同时兼顾移动端和云端部署场景下的有限计算资源约束。
    当前技术环境下,随着人工智能与计算机视觉成为构建包容性通信解决方案的核心工具,手语识别系统的开发愈发重要。这类系统是听障群体与外部世界沟通的接口,能够保障该群体对数字服务和社会参与的平等接入权。手语是具有独立结构、语法和表达机制的复杂语言系统,其视频识别面临数据采集标注流程复杂、信号不确定性高、能够平衡上下文理解的深度学习架构发展不成熟等多重挑战。应对这些挑战需要先进的视频流分析技术支撑,包括目标检测、运动跟踪和序列分类,这些技术构成了现代手语识别系统的技术基础。
    本综述重点考察手语识别相关研究,探讨开发支持低资源语言的“包容性”模型的重要性及其在国际手语场景中的应用潜力。手语识别系统的落地将推动教育、就业和社会交往领域的包容性增长。研究以低资源哈萨克手语(Kazakh Sign Language, KSL)为核心案例,探索视频手语识别的当前技术路径,并提出后续研究与开发的方向。手语识别系统开发需要包含视频流处理、特征提取和分类组件的复杂架构,且方案设计必须适配手语独特的空间、时间及文化特征。
    典型视频手语识别系统的处理流程包含五个核心模块:数据采集模块通过高分辨率摄像头捕获视频流,核心要求是精准捕捉手部运动、面部表情和身体形态;预处理模块完成帧对齐、去噪、数据修复及感兴趣区域(如手势和面部区域)提取,以降低计算开销并提升输入数据质量;特征提取模块采用卷积神经网络(Convolutional Neural Networks, CNN)等深度学习技术提取时空特征,例如三维卷积神经网络(3D CNN)结合长短期记忆网络(Long Short-Term Memory, LSTM)或门控循环单元(Gated Recurrent Unit, GRU)进行运动分析;分类模块对筛选后的特征图像进行手势解析与语义推断,基于Transformer的架构可对序列中的连续子约束进行建模,有效编码上下文关系以支持分类任务;集成与输出模块将识别结果转换为文本或语音形式输出,提升用户满意度与系统适配性。高可靠性的手语识别需要各模块的深度融合,但当前研究仍面临语言复杂度差异大、资源不足、硬件能力受限等障碍,因此系统设计需要在计算能力、质量保障、价值完整性和跨场景可用性之间实现平衡。
  2. 2.
    方法论
    本综述采用结构化、系统化的研究方法,以保障视频手语识别深度学习前沿进展分析的透明度、可复现性和全面性。研究遵循已确立的系统综述规范,旨在对文献进行一致且无偏的分析。
    文献检索覆盖Scopus、Web of Science、IEEE Xplore和Google Scholar四大科学数据库,检索时间为2026年1月,时间范围为2020年1月至2026年1月,以覆盖领域最新进展。检索式针对标题、摘要和关键词字段设计,组合使用手语识别、手势识别、深度学习、视频分析等相关术语,同时针对图卷积网络、注意力架构、连续识别系统和低资源手语等特定研究方向开展定向检索。
    研究设定了明确的纳入与排除标准:纳入标准为2020年后发表于同行评审期刊或会议、聚焦基于视频的手语识别且至少包含一个深度学习组件、报告准确率、词错误率(Word Error Rate, WER)、双语评估替补(Bilingual Evaluation Understudy, BLEU)得分或平均精度均值(mean Average Precision, mAP)等量化性能指标、可获取英文全文的研究;排除标准为仅关注无时序建模的静态图像手势识别、完全依赖传统机器学习方法、方法细节不足、属于已发表工作的重复或更新版本的研究。
    研究筛选遵循PRISMA合规的多阶段过滤流程:初始检索共获得1050条记录,剔除约320条重复条目后剩余730条独特记录;通过标题和摘要筛选排除540项与视频手语识别无关或未使用深度学习技术的研究;对剩余190篇文章进行全文评估,排除87项因方法严谨性不足、无法获取或不符合综述范围的研究,最终纳入103项研究进行详细分析。
    针对每项纳入研究,系统提取了出版元数据、涉及的手语类型、深度学习架构类型、使用的数据集、评估指标、报告性能和识别出的局限性等信息,并依据后续章节提出的分类法对研究进行分类,支持现有方法的系统化比较。为降低选择偏差,检索和筛选由两名作者独立完成,分歧通过讨论解决。研究仍存在一定局限性,例如存在发表偏倚——多数研究报告较高性能指标,可能反映阳性结果发表倾向;未采用正式偏倚风险评估工具,而是基于数据集规模、实验设计、评估协议清晰度和结果可复现性等标准评估方法学质量。整体而言,所采用的方法论为分析视频手语识别深度学习技术的现状提供了透明且可复现的框架。
  3. 3.
    深度学习手语识别方法分类法
    本综述将现有方法划分为六大技术范式:空间与时空特征提取方法、时序序列建模方法、基于Transformer和注意力的手语识别方法、基于图的空间-时间建模方法、混合端到端手语识别与翻译系统、迁移学习策略及其他辅助方法。分类气泡图的位置反映了各方法的时间建模能力(纵轴)和数据效率(横轴),虚线箭头展示了从空间特征提取方法向混合端到端系统的架构演化轨迹。
    3.1 空间与时空特征提取方法
    此类方法是视频手语识别最常用的技术路径之一,可有效缓解数据不足问题并提升高层视觉抽象层面的特征表征能力。美国手语(American Sign Language, ASL)动态手势识别中,3D CNN类方法已实现良好效果,可在实时场景下对多达100个词汇进行分类,但效率常受限于可用数据集的规模和多样性。马来西亚手语(Malaysian Sign Language, MSL)研究中,结合卷积块注意力模块的ResNet(Convolutional Block Attention Module-ResNet, CBAM-ResNet)架构实现了超过90%的准确率,但结果高度依赖数据集质量,在更复杂未见过的场景中过拟合风险和泛化能力下降。CNN与3D CNN模型的对比研究表明,3D CNN在特立尼达和多巴哥手语(Trinidadian and Tobago Sign Language, TTSL)数据集上准确率达91%,在ASL数据集上准确率为83%,但这类模型对数据集和环境变化的鲁棒性评估不足,限制了其在真实交互环境中的实用价值。
    基于CNN的ASL识别系统可识别5个基础ASL手势,支持视频序列和实时摄像头数据输入,提升了系统灵活性,但目前仅在受控条件下完成评估,在更大规模多样数据集和真实场景下的性能尚未充分验证。阿法安奥罗莫手语(Afaan Oromo Sign Language, AOSL)研究通过预处理、Gabor特征和ResNet-50分类器组合实现了92.98%的准确率,但多数研究仍聚焦孤立手势,跨数据集泛化能力有限。
    尽管CNN和3D CNN类手语识别系统在基准测试中表现优异,但这些架构存在结构性局限:多数卷积方法主要依赖表观层面的空间表征,对照明变化、背景杂乱、相机视角变化和手语者个体视觉特征差异较为敏感;3D CNN虽可部分捕捉短时动态,但受限于卷积操作的局部性,长程上下文依赖建模能力不足。因此多数模型在受控实验室条件下性能出色,但在手语者无关和跨数据集评估场景中性能显著下降。这推动了研究领域向循环架构、注意力驱动架构和Transformer驱动架构转变,以提升时序推理、上下文理解和跨场景泛化能力。
    3.2 时序序列建模方法
    RNN和LSTM架构常用于手语识别系统以实现时序行为建模,保留视频信号的运动顺序上下文,完整解释手势过程的动态特性。印度手语(Indian Sign Language, ISL)IISL2020数据库(含11个字符)实验中,LSTM与GRU层结合实现了97%的准确率,但由于测试对象为相对简单重复的短语,模型在复杂或连续语句序列中的有效性尚未得到充分验证。墨西哥手语(Mexican Sign Language, MSL)多模态系统结合LSTM和GRU层分析时序动态,融合手部、身体和面部特征与OAK-D相机采集的深度信息,但这类架构仍需进一步研究对其他语系和自然交流条件的适配能力。
    PoseNet-LSTM架构在实时文本翻译任务中实现98%的准确率;结合OpenCV、MediaPipe和LSTM工具的ISL短短语识别训练准确率达99.17%、测试准确率达97.78%,但这类模型在动作重叠和短时约束场景下性能可能下降。阿拉伯手语(Arabic Sign Language, ArSL)研究采用关键点表征,预处理对模型准确率至关重要,实现了超过88.5%的准确率;基于MediaPipe LSTM的ASL识别系统可准确识别3个词汇,表明其在极受限任务上的可靠性,但不足以支撑连续或大词汇量手语识别。
    LSTM和GRU等循环架构展现了强大的序列建模能力,在词汇有限、定义清晰的受限任务上实现了高准确率,但其核心局限在于倾向于将整个手势序列压缩为固定大小的隐藏状态,导致更长或更复杂的手语序列出现信息损失。这一压缩瓶颈在连续手语识别(Continuous Sign Language Recognition, CSLR)中尤为突出,此时单个手势存在重叠且时序边界模糊。此外,多项研究报告的99.17%等高准确率多在受控实验室条件下、小词汇量和少量手语者场景下获得,无法反映真实手语环境的复杂性。
    从架构演进视角看,循环序列建模相比纯空间CNN方法实现了重大进步,支持显式的手语序列时序推理,但综述研究显示循环架构随序列复杂度提升会出现可扩展性局限。在包含长手语流、手势重叠、快速运动转换和手语者差异的连续手语识别任务中,循环隐藏状态压缩频繁导致信息损失和时序对齐不稳定。同时,模型的序列化处理特性限制了并行化效率,增加了推理延迟,降低了其在实时部署场景中的适用性。这些结构性约束是推动研究转向注意力驱动和Transformer架构的重要动因,后者无需依赖压缩序列记忆表征即可直接建模长程时序依赖。
    3.3 基于Transformer和注意力的手语识别方法
    当前研究正积极开发可实现整句实时翻译的新方法。有研究提出了一种新型Transformer架构,联合训练连续手语识别和手语翻译(Sign Language Translation, SLT)任务,采用连接主义时序分类(Connectionist Temporal Classification, CTC)损失函数关联识别与翻译任务,无需显式时序对齐,在RWTH-PHOENIX-Weather-2014T等挑战性数据集上性能显著提升,双语评估替补4-gram(BLEU-4)得分从9.58提升至21.80。
    Transformer编码器和解码器采用缩放点积注意力机制,多头部注意力通过并行计算多个独立的注意力函数,使模型能够同时关注不同时序位置的表征子空间。在视频手语识别场景中,该特性具有重要价值:不同注意力头可分别专注于捕捉手形轨迹、上半身姿态转换和面部表情动态等不同手势表达维度。由于手语意义通过多发音器官同步传递,这种并行多通道注意力比单头注意力能提供更完整、语义基础更扎实的手语序列表征。交叉注意力机制则使解码器能够将预测的 gloss(手语词汇单元)或词语与输入手语序列中最具信息量的时序区域动态对齐,提升上下文翻译一致性,强化连续手语识别任务中手势阶段与语言单元的长程依赖建模。最小化该损失函数可鼓励模型在每一步解码时为正确输出标记分配更高概率质量,有效惩罚置信的错误预测,以端到端方式联合优化识别和翻译组件,降低的损失值对应预测概率分布与参考翻译序列的更好对齐,与标准手语识别基准上BLEU得分提升、WER降低直接相关。
    韩国手语研究提出了多分支架构,融合CNN和Transformer特征、轻量多头自注意力(Multi-Head Self-Attention, MHSA)和带3×3卷积的粒度模块,在77标签数据集上实现89.0%准确率,在实验室数据集上实现98.3%准确率,同时降低了计算成本。
    Transformer类架构在手语识别任务中展现了高性能,但仍存在多项挑战:多数Transformer手语识别模型依赖大规模标注数据集,限制了其在资源稀缺手语中的适用性;Transformer方法依赖视觉线索和骨骼坐标序列,而非精确建模类似关节角度变化的手部关节几何关系;传统注意力机制对所有时序线索赋予同等权重,降低了对视觉线索分离至关重要的细微局部运动的敏感度。因此,在Transformer电路中融入几何特征和自适应时序注意力是提升系统鲁棒性和泛化能力的有前景方向。
    尽管Transformer架构实现了手语识别和翻译的集成端到端训练,仍存在若干未充分解决的问题:首先,Transformer模型通常需要大规模标注数据集和可观的计算资源,限制了其在低资源手语和边缘设备部署场景的应用;其次,模型主要依赖从原始视频特征提取的视觉令牌嵌入,可能仍包含冗余背景信息;第三,Transformer架构直接忽略了手臂的几何结构(如帧内关节夹角);此外,瞬时注意力机制对所有令牌的处理方式相同,存在手指运动细微动态激活不充分的风险。因此,结合几何属性和灵活聚焦机制以提升系统可靠性和适配性仍是待解决问题。
    有研究提出交叉注意力(Cross-Attention, CA)模块处理RGB和光流等多模态数据以分析复杂手势,虽降低了计算成本并提升了识别质量,但未解决模型复杂度与速度的平衡问题;对比视觉-文本手语识别(Contrastive Visual–Textual SLR, CVT-SLR)系统在单模态和多模态方法上均表现更优,但对预训练模型的依赖可能限制其在新数据库或新领域的灵活性;连续手语识别中使用的语际手语注意力(Inter-Gloss Attention, IIGA)模块在WER指标上表现良好,但需要背景去除等精细预处理步骤,系统仍对真实环境干扰敏感;相对空间Transformer(Relative Spatial Transformer, RST)架构编码空间相对关系而非绝对坐标,提升了模型区分空间关系的能力,但其在更大词汇量或特定用例上的可扩展性仍待验证。总体而言,Transformer手语识别模型虽具备高精度和复杂序列分析能力,但高计算需求、对数据库质量的依赖、无法充分处理手指手势等细微几何特征仍是研究者面临的主要挑战。
    3.4 基于图的空间-时间建模方法
    图卷积网络(Graph Convolutional Network, GCN)可通过分析骨骼关节坐标有效建模手语序列中的空间和时间模式。在基于姿态的词级手语识别(word-level sign language recognition, WSLR)框架中,空间依赖由GCN确定,时间关系采用双向Transformer编码器(Bidirectional Encoder Representations from Transformers, BERT)建模,该方法在WLASL数据集上比传统基于姿态的方法预测准确率提升约5%,但其在多样化数据集和复杂真实场景下的泛化能力尚未充分探索。
    针对复杂视频背景和多光照场景挑战,多帧结构支撑的多流手语图像形变网络(Sign Language Image Deformation Network, SL-IDN)采用4个特征流的27个主节点,在WLASL、AUTSL和CSL数据集上展现了强泛化能力,但其在大规模无约束视频上的性能尚未完全验证。多分支注意力模型融合时空图特征与深度神经表征处理动态手部运动,在MSRA、DHG和SHREC’17数据集上分别实现94.12%、92.00%和97.01%的准确率,但这些高准确率通常依赖预处理或理想化的骨骼数据,在噪声或遮挡环境中鲁棒性可能受限。
    包含约束配置的残差GCN轻量流水线可有效建模时空依赖,降低计算成本并保持高性能,在WLASL-300、WLASL-1000和LSA-64数据集上准确率分别为27.62%、26.97%和100%,但性能在大规模复杂数据集上出现明显下降,表明可扩展性是一大局限。
    为更好捕捉手臂和手腕的局部拓扑,手部感知图卷积网络(HAND-aware graph convolutional networks, HA-GCN)通过使用所有关节和骨骼的子图在AUTSL数据集上优于先前模型,提供了包含数据集的丢图功能;图卷积聚焦网络(Graph Convolution Attentive Residuals, GCAR)通过集成多阶段图滚动和聚焦机制提升了性能;结合时空图卷积网络(Spatial–Temporal Graph Convolutional Network, ST-GCN)、BiLSTM和3D姿态参数化的模型在RWTH-PHOENIX-2014和中文数据集(Split I)上展现了竞争力。
    然而这些方法计算密集,通常需要精细的超参数调优,限制了实时使用。基于手工框架和残差GCN的轻量模型在WLASL和MINDS-Libras数据集上表现更优,同时降低了计算成本,这意味着模型复杂度、准确率和计算效率之间存在需要依据应用场景谨慎权衡的取舍。GCN类识别正通过将焦点从原始像素分析转向结构化姿态和运动分析推动自动翻译系统发展,但性能严重依赖理想化骨骼数据,多模型融合会增加复杂性和过分类风险,这些局限需要结合图形表征与附加模块以增强鲁棒性、捕捉时空依赖并泛化到未见过的手语者。
    与基于像素的方法相比,GCN类方法提供了根本不同的表征范式:通过显式建模人体骨骼图结构,其对背景噪声和光照变化具备更强鲁棒性。综述研究证实,在骨骼数据质量较高时,GCN在WLASL和AUTSL等数据集上持续优于基于姿态的基线。但这一优势在真实场景中会成为脆弱点:当姿态估计因遮挡、快速运动、低分辨率视频或不准确的骨骼提取失败时,错误骨骼输入会直接传播到图卷积中,导致识别可靠性下降。此外,多数GCN模型依赖理想化的预处理骨骼数据,这类数据在部署场景中可能无法获取。多流GCN架构的计算开销也限制了其在实时和移动场景中的适用性。这些权衡表明,GCN最适合作为混合架构中的互补组件,而非独立解决方案。
    从系统层面看,GCN类方法解决了表观驱动手语识别模型的核心弱点之一,即显式建模身体关节、手部发音器官和运动轨迹之间的结构关系,显著提升了对背景变化、光照变化和某些类型视觉噪声的鲁棒性,因此图基表征在手语者无关识别和多模态融合流水线中愈发重要。
    但综述研究也揭示了若干持续存在的挑战:GCN架构的有效性仍高度依赖姿态估计的质量和稳定性,意味着遮挡、运动模糊、低分辨率视频或不准确骨骼提取导致的错误会直接传播到图表征中并降低识别可靠性;此外,许多多流GCN系统因同时处理空间、时间和多模态图结构引入了可观的计算开销,这些约束限制了可扩展性,增加了实时和移动辅助系统部署的复杂度。因此,近期研究趋势日益聚焦于轻量图架构、自适应图注意力机制和混合Transformer-GCN框架,试图在结构感知、计算效率和时序建模能力之间实现平衡。
    3.5 混合端到端手语识别和翻译模型
    手语翻译模型往往计算成本高昂且全局上下文理解不足。Transformer-CNN混合方法融合CNN的局部特征提取能力与视觉Transformer(Vision Transformer, ViT)的全局表征能力,可有效捕捉细微手势,在字母表ASL数据集上实现99.97%准确率、110帧每秒(Frames Per Second, FPS)的处理速度,仅需5.0吉浮点运算次数(Giga Floating-Point Operations Per Second, GFLOP)。但这些结果通常在受控数据集上获得,模型在遮挡或光照变化等真实场景变异下的鲁棒性尚不明确。
    日本手语研究对比了CNN和ViT类架构捕捉相机中角度特征的效果。设Pi,t、Pj,t和Pk,t表示通过MediaPipe姿态估计框架提取的手指关节三维坐标,关节j处的角度特征θj,t表示由相邻关节连接向量形成的夹角,该角度参数的紧凑表征对平移和光照变化比原始坐标符号更不敏感,生成的角特征向量作为ViT编码器特征的输入令牌进入手语识别流水线。
    尽管取得上述成果,当前手语识别方法仍存在若干未解决的局限:基于RGB的方法仍易受背景噪声和光照变化影响,基于骨骼的方法部分缓解了这些问题,但依赖原始笛卡尔关节坐标,无法捕捉手指关节之间的几何关系;角度特征表征提供了更紧凑鲁棒的替代方案,因其对平移、尺度变化和光照条件具有不变性,更适合真实场景部署。
    基于骨骼关节坐标的角度差表征是手部关节运动的紧凑形式,模型可据此生成具有语义意义的描述,这些特性不受平移、缩放适应和光照变化的影响,使其适合用于真实手语识别系统。该领域仍有若干开放研究问题:首先,角度骨骼表征与Transformer架构结合进行上下文建模的应用仍然有限;其次,手语序列中角度运动动态的深度时序建模尚未得到充分解决;第三,缺乏在受控实验条件下评估多种深度学习架构中角度特征实现的系统性对比研究。基于几何骨骼表征的卷积空间特征提取与Transformer全局上下文建模相结合的混合架构研究也十分有限,依赖角度特征的手语识别系统在真实书写场景(如不同手语者和数据集)中的泛化效率仍是开放性问题。后续研究应系统探索融合角度骨骼特征的Transformer类和混合深度学习架构,重点关注时序序列建模、对真实场景变异的鲁棒性以及实用部署的计算效率。
    读唇音频-视觉语音识别(Audio–Visual Speech Recognition, AVSR)模型结合主动形状模型(Active Shape Model, ASM)和CNN,将WER降低6.59%,唇读准确率达95%;结合MediaPipe的CNN-BiLSTM-生成对抗网络(Generative Adversarial Network, GAN)流水线支持识别、翻译和手势生成,分类准确率超过95%,BLEU得分达38.06;双流手语识别/手语翻译模型采用双视觉编码器实现了最先进的性能。但许多混合模型仍使用静态模态融合或简单时序聚合,忽略了对手动和非手动特征的自适应加权,限制了其在自然手语交流中的鲁棒性。
    针对卡纳达手语的混合深度学习系统融合CNN空间特征、手动关键点先验、LSTM时序建模和Transformer长程依赖建模,在新医疗领域数据集上训练准确率达97.6%、验证准确率达96.75%、测试准确率达81%,优于传统CNN-LSTM和手动关键点(Manual Keypoint, HKP)-LSTM基线。多尺度上下文感知网络(Multi-Scale Context-Aware Network, MSCA-Net)配备多尺度运动和时序模块,实现了最高的连续手语识别结果;专用模型提升了ASL疑问识别准确率(98.91%),通过脉冲神经网络提升了效率,或实现了印尼手语(Sistem Isyarat Bahasa Indonesia, SIBI)到印尼语的快速翻译(准确率96%–99%)。
    区域特定系统包括采用改进YOLOv7的维吾尔手语识别、WER为8.82%的埃塞俄比亚手语(Ethiopian Sign Language, EthSL)识别,以及准确率达94%的阿塞拜疆手语(Azerbaijani Sign Language, AzSL)识别。YOLOv8、SSD与MobileNet V2、双分支混洗注意力机制-YOLOX(Dual-branch Shuffle Attention Mechanism–You Only Look Once version X, DSA-YOLOX)等轻量检测模型提升了实时连续手语识别性能并降低成本。多尺度特征融合-欧几里得Transformer(Multi-Scaled feature Fusion–Euclidean Transformer, MSF-ET)、双流全手网络等先进融合方法在CSL和AUTSL数据集上刷新了基准。
    其他研究探索了ASL的长短期循环卷积网络(Long-term Recurrent Convolutional Network, LRCN),以及结合MobileNet-LSTM的多模态阿拉伯手语数据集,在手语者依赖模式下准确率达99.7%。多模态特征融合的融合特征向量通过拼接运算符产生统一的多模态特征向量,整合手动和非手动信息,为识别模型学习手势与非手动特征之间的跨模态依赖开辟了路径,这对多通道传递语义的手语具有重要意义,但两类模态可能对所有手语手势的成因贡献不均。融合特征向量经线性分类器和softmax函数转换为所有特征类的归一化概率,生成对手部特征或头部运动敏感的模型视觉表征,训练时通常采用交叉熵损失优化输出层,使模型学习判别性多模态特征表征。
    混合多模态架构是当前高级手语识别的主流研究方向,因其融合了多种表征范式的互补优势,包括CNN空间提取、Transformer上下文建模、GCN结构推理以及手动与非手动语言线索的多模态融合。综述研究一致表明,这类系统在涉及复杂时序语义的连续手语识别和手语翻译任务中实现了最强的基准性能。
    但混合系统架构复杂度的提升也带来了显著的实际挑战:首先,多特征流的集成大幅增加了计算成本、内存消耗和训练需求,限制了其在移动和嵌入式辅助平台上的部署可行性;其次,许多多模态融合策略依赖假设所有模态重要性相等的静态加权机制,但面部表情、手部运动、姿态动态和上下文信息的贡献在不同手语和交流场景中差异显著;第三,多数报告的基准结果在相对同质的受控实验条件下获得,可能高估真实世界泛化能力。这些观察结果表明,手语识别的未来进展不仅依赖于架构复杂度的提升,还依赖于开发自适应融合机制、面向轻量部署的模型以及能够反映真实手语环境的更具生态学效度的评估协议。
    3.6 训练迁移与其他方法
    迁移学习、特征增强和辅助策略被用于提升手语识别准确率。通过字幕对齐特征和外部类别质心记忆增强词级手语识别模型,虽提升了识别效果,但对外部标注的依赖可能限制其在无对齐字幕领域的应用。CVPR 2021 ChaLearn LAP大规模手语者无关孤立手语识别挑战赛在AUTSL数据集(226个手势,36000段视频)上评估了包含RGB、深度、姿态估计、迁移学习、集成学习和时空模型的多种多模态方法,准确率超过96%,但相似手势、真实性和解释问题仍然存在,凸显了平衡数据集和上下文注意力的必要性。
    有研究提出了Sign Hidden-Unit BERT(SHuBERT),在1000小时ASL视频上训练的自监督编码器,扩展至多流视觉输入(手、脸、身体),结合MediaPipe关键点、DINOv2特征和K-means聚类,在ASL翻译(How2Sign、OpenASL、FLEURS-ASL)和孤立识别(ASL Citizen、SEM-LEX)任务上实现了最先进性能。其自监督多流聚类预测目标通过最小化样本在流中的伪标签分配概率与模型预测的聚类分布之间的差异,实现跨多特征流的共享潜在表征学习,这对标注数据难以获取的低资源手语极具价值,但基于聚类的自监督目标主要捕捉全局语义结构,可能无法充分建模连续手语识别任务所需的细粒度时序手势动态和细微手指发音模式。
    跨流一致性约束最小化不同流中提取的潜在特征嵌入之间的欧氏距离,鼓励模型生成与特定视频片段对应的模态无关的姿势表征,在跨书写方法、光照变化和部分遮挡下保持一致性,通过跨多流的对齐隐藏嵌入为所有语义身份提供相同的表征。但自监督学习模型中识别的手语数据集依赖性降低的同时,跨多流的聚类方法仍存在局限:静态聚类更常用于这些方法,无法充分捕捉手语动作执行期间的时序动态;此外,基于聚类的自监督学习通常聚焦整个视频的语义,可能无法充分建模细粒度手指运动或短时运动模式。跨流一致性约束通常假设所有模态流的重要性均匀,这可能不符合某些手势类型占主导的真实手语场景。因此,融合时序注意力机制和细粒度几何特征建模的自适应多流自监督学习框架仍是开放研究课题。
    其他研究提出了集成孤立手语识别流水线,结合目标数据增强、回归头和交并比(Intersection-Over-Union, IoU)平衡分类损失;开发了源自12个专家来源的美国手语知识图谱(American Sign Language Knowledge Graph, ASLKG),在该图谱上训练的神经符号模型实现了91%的孤立手语识别准确率、14%的未见语义特征预测准确率和36%的YouTube-ASL主题分类准确率。子空间和多模态融合方法提升了训练准确率,但非视觉泛化和跨语言翻译准确率仍暴露出域偏移、类别混淆和对高质量多模态输入的依赖等持续问题。尽管迁移学习和自参照策略具备优势,但其有效性取决于学习数据的质量,需要仔细验证和包含准确且上下文相关关键假设的数据库管理。
    迁移学习和自监督方法是解决低资源手语数据稀缺问题最有前景的方向。SHuBERT等模型证明,在大型未标注手语视频语料库上进行预训练,可在标注数据少得多的情况下实现有竞争力的性能。但迁移学习的有效性关键取决于源手语和目标手语之间的域接近程度:从ASL学到的特征可能无法有效迁移到结构不同的语言(如KSL,其在手形库、空间语法和非手动标记使用上存在差异)。此外,基于聚类的自监督目标通常针对全局视频级语义优化,可能无法充分捕捉单个音系特征的细粒度时序动态。这些观察结果凸显了将语言特定预训练语料库和时序感知自监督目标作为低资源手语研究优先方向的重要性。
  4. 4.
    数据集概述与贡献
    WLASL数据集已扩展至包含100余名手语者演绎的2000余个词汇,作为ASL词级手势识别规模最大的公开资源之一,它支持从整体视觉感知到二维人体姿态估计的多种深度学习实验,但数据集在参与者多样性和环境条件上仍可能存在局限,影响模型泛化能力。已提出可扩展的连续视频手势数据采集方法,结合标准广播字幕和关键词检测技术自动定位手势样例,构建了来自1000小时视频素材的1000个词词典。英国手语1000类(British Sign Language 1000-class, BSL-1K)数据集作为大型BSL数据集合已公开,被证明可作为其他手语、多语言手语数据集(Multilingual Sign Language Dataset, MSASL)和WLASL的预训练基础,其公开可获取性和结构化组织便于实验复现和对比分析,但可能仍缺乏细粒度时空标注。
    两项阿拉伯手语数据集ArASL2018和ArASL2021分别覆盖简单和复杂场景下的手势,均已公开,助力辅助技术领域研究,但与ASL数据集相比规模相对较小,可能限制深度学习模型的可扩展性。沙特手语(Saudi Sign Language, SSL)最大数据库包含293个手势、33种手语和145035个样本,覆盖10个不同主题领域,但论文未提及数据集可获取性,显著限制了可复现性和更广泛的科学影响力。包含6个识别音系属性(Recognizing Phonological Properties, RPP)标注的大规模ASL数据集已部分发布,应用于骨骼特征的图神经网络在识别这些属性(包括未见过的模式)上展现了前景,但数据访问受限限制了外部验证和基准测试。
    大规模土耳其手语(Turkish Sign Language, TSL)数据集已公开,包含6名母语手语专家创建的744个独特土耳其文本对应的22000余段独立视频,其结构化设计支持跨语言预训练,但表演者数量有限可能制约数据集的变异性。为提升聋人群体宗教内容理解能力创建的多模态语料库包含音频信号和262段阿拉伯手语视频及两位专家撰写的文本,但未公开。时间提升池化(Temporal Lift Pool, TLP)方法在时序特征聚合上相比传统方法准确率更高,但所用数据集的公开访问受限,限制了其普遍适用性。ASL Citizen数据集是公开的宝贵研究工具,俄罗斯手语Slovo数据集包含194名表演者创建的1000个类别共20000段全高清视频,虽可实现高准确率手势分类,但需考虑参与者选择和录制条件同质性可能带来的误差。
    扩展3D手语资源方面,SignAvatars提供了包含70000段视频和834万帧的多叙事数据集,其包含ASL和HamNoSys手势的多模态数据结构优势在于促进3D手语的解释和创建,但数据的高复杂度可能增加标准模型训练难度并提升存储需求。AUTSL数据集包含43名参与者演绎的226个手势和38336段RGB-D图像,背景多样性和姿态复杂度使其成为宝贵的基准数据集,但在手语者无关估计中准确率大幅下降至62.02%,表明模型泛化存在困难。尽管AUTSL等广泛使用的数据集存在局限,这一问题仍凸显了为特定低资源手语开发专用语料的必要性,构建自有数据集是提升识别质量和模型泛化能力的重要步骤,下一节将描述开发的KSL数据集。
    收集的KSL数据集
    哈萨克手语视频数据集(Kazakh Sign Language Video Dataset, KSLVD)旨在解决KSL作为深度学习文献中代表性最不足的手语之一的关键资源缺失问题。数据集包含18000段增强视频序列,对应200个经过语言学验证的句子级短语,由3名母语KSL手语者在自然条件下录制,有意引入背景、光照和手语者位置差异。3名KSL母语者均为早期双语使用者且毕业于聋人特殊教育项目,在获得书面知情同意书和版权授权协议后完成录制。采用MediaPipe进行特征提取,每帧生成225个骨骼关键点,序列归一化为50帧。与包含173个词汇项的FluentSigners-50数据集相比,KSLVD提供了更广的词汇覆盖和更高的句子级句法多样性。该数据集目前未公开,但作为KSL研究的结构化语言学资源,其详细开发方法已在配套出版物中描述。
  5. 5.
    评估指标
    手语识别系统的全面性能评估由一组量化表征识别准确率、错误率、模型泛化能力和实时性能的指标构成。准确率是反映正确分类手势比例的核心指标,同时还需额外考量模型泛化能力、输入数据畸变容忍度和上下文解释质量以确定系统实际适用性。
    手语识别方法已在多种语言语境下展现高准确率:基于光流和Inflated-3D模型的南印度手语分类方法在后续实时翻译为卡纳达手语时平均准确率达0.8709;采用二维关键
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号