深度学习手语识别方法分类法
本综述将现有方法划分为六大技术范式:空间与时空特征提取方法、时序序列建模方法、基于Transformer和注意力的手语识别方法、基于图的空间-时间建模方法、混合端到端手语识别与翻译系统、迁移学习策略及其他辅助方法。分类气泡图的位置反映了各方法的时间建模能力(纵轴)和数据效率(横轴),虚线箭头展示了从空间特征提取方法向混合端到端系统的架构演化轨迹。
3.1 空间与时空特征提取方法
此类方法是视频手语识别最常用的技术路径之一,可有效缓解数据不足问题并提升高层视觉抽象层面的特征表征能力。美国手语(American Sign Language, ASL)动态手势识别中,3D CNN类方法已实现良好效果,可在实时场景下对多达100个词汇进行分类,但效率常受限于可用数据集的规模和多样性。马来西亚手语(Malaysian Sign Language, MSL)研究中,结合卷积块注意力模块的ResNet(Convolutional Block Attention Module-ResNet, CBAM-ResNet)架构实现了超过90%的准确率,但结果高度依赖数据集质量,在更复杂未见过的场景中过拟合风险和泛化能力下降。CNN与3D CNN模型的对比研究表明,3D CNN在特立尼达和多巴哥手语(Trinidadian and Tobago Sign Language, TTSL)数据集上准确率达91%,在ASL数据集上准确率为83%,但这类模型对数据集和环境变化的鲁棒性评估不足,限制了其在真实交互环境中的实用价值。
基于CNN的ASL识别系统可识别5个基础ASL手势,支持视频序列和实时摄像头数据输入,提升了系统灵活性,但目前仅在受控条件下完成评估,在更大规模多样数据集和真实场景下的性能尚未充分验证。阿法安奥罗莫手语(Afaan Oromo Sign Language, AOSL)研究通过预处理、Gabor特征和ResNet-50分类器组合实现了92.98%的准确率,但多数研究仍聚焦孤立手势,跨数据集泛化能力有限。
尽管CNN和3D CNN类手语识别系统在基准测试中表现优异,但这些架构存在结构性局限:多数卷积方法主要依赖表观层面的空间表征,对照明变化、背景杂乱、相机视角变化和手语者个体视觉特征差异较为敏感;3D CNN虽可部分捕捉短时动态,但受限于卷积操作的局部性,长程上下文依赖建模能力不足。因此多数模型在受控实验室条件下性能出色,但在手语者无关和跨数据集评估场景中性能显著下降。这推动了研究领域向循环架构、注意力驱动架构和Transformer驱动架构转变,以提升时序推理、上下文理解和跨场景泛化能力。
3.2 时序序列建模方法
RNN和LSTM架构常用于手语识别系统以实现时序行为建模,保留视频信号的运动顺序上下文,完整解释手势过程的动态特性。印度手语(Indian Sign Language, ISL)IISL2020数据库(含11个字符)实验中,LSTM与GRU层结合实现了97%的准确率,但由于测试对象为相对简单重复的短语,模型在复杂或连续语句序列中的有效性尚未得到充分验证。墨西哥手语(Mexican Sign Language, MSL)多模态系统结合LSTM和GRU层分析时序动态,融合手部、身体和面部特征与OAK-D相机采集的深度信息,但这类架构仍需进一步研究对其他语系和自然交流条件的适配能力。
PoseNet-LSTM架构在实时文本翻译任务中实现98%的准确率;结合OpenCV、MediaPipe和LSTM工具的ISL短短语识别训练准确率达99.17%、测试准确率达97.78%,但这类模型在动作重叠和短时约束场景下性能可能下降。阿拉伯手语(Arabic Sign Language, ArSL)研究采用关键点表征,预处理对模型准确率至关重要,实现了超过88.5%的准确率;基于MediaPipe LSTM的ASL识别系统可准确识别3个词汇,表明其在极受限任务上的可靠性,但不足以支撑连续或大词汇量手语识别。
LSTM和GRU等循环架构展现了强大的序列建模能力,在词汇有限、定义清晰的受限任务上实现了高准确率,但其核心局限在于倾向于将整个手势序列压缩为固定大小的隐藏状态,导致更长或更复杂的手语序列出现信息损失。这一压缩瓶颈在连续手语识别(Continuous Sign Language Recognition, CSLR)中尤为突出,此时单个手势存在重叠且时序边界模糊。此外,多项研究报告的99.17%等高准确率多在受控实验室条件下、小词汇量和少量手语者场景下获得,无法反映真实手语环境的复杂性。
从架构演进视角看,循环序列建模相比纯空间CNN方法实现了重大进步,支持显式的手语序列时序推理,但综述研究显示循环架构随序列复杂度提升会出现可扩展性局限。在包含长手语流、手势重叠、快速运动转换和手语者差异的连续手语识别任务中,循环隐藏状态压缩频繁导致信息损失和时序对齐不稳定。同时,模型的序列化处理特性限制了并行化效率,增加了推理延迟,降低了其在实时部署场景中的适用性。这些结构性约束是推动研究转向注意力驱动和Transformer架构的重要动因,后者无需依赖压缩序列记忆表征即可直接建模长程时序依赖。
3.3 基于Transformer和注意力的手语识别方法
当前研究正积极开发可实现整句实时翻译的新方法。有研究提出了一种新型Transformer架构,联合训练连续手语识别和手语翻译(Sign Language Translation, SLT)任务,采用连接主义时序分类(Connectionist Temporal Classification, CTC)损失函数关联识别与翻译任务,无需显式时序对齐,在RWTH-PHOENIX-Weather-2014T等挑战性数据集上性能显著提升,双语评估替补4-gram(BLEU-4)得分从9.58提升至21.80。
Transformer编码器和解码器采用缩放点积注意力机制,多头部注意力通过并行计算多个独立的注意力函数,使模型能够同时关注不同时序位置的表征子空间。在视频手语识别场景中,该特性具有重要价值:不同注意力头可分别专注于捕捉手形轨迹、上半身姿态转换和面部表情动态等不同手势表达维度。由于手语意义通过多发音器官同步传递,这种并行多通道注意力比单头注意力能提供更完整、语义基础更扎实的手语序列表征。交叉注意力机制则使解码器能够将预测的 gloss(手语词汇单元)或词语与输入手语序列中最具信息量的时序区域动态对齐,提升上下文翻译一致性,强化连续手语识别任务中手势阶段与语言单元的长程依赖建模。最小化该损失函数可鼓励模型在每一步解码时为正确输出标记分配更高概率质量,有效惩罚置信的错误预测,以端到端方式联合优化识别和翻译组件,降低的损失值对应预测概率分布与参考翻译序列的更好对齐,与标准手语识别基准上BLEU得分提升、WER降低直接相关。
韩国手语研究提出了多分支架构,融合CNN和Transformer特征、轻量多头自注意力(Multi-Head Self-Attention, MHSA)和带3×3卷积的粒度模块,在77标签数据集上实现89.0%准确率,在实验室数据集上实现98.3%准确率,同时降低了计算成本。
Transformer类架构在手语识别任务中展现了高性能,但仍存在多项挑战:多数Transformer手语识别模型依赖大规模标注数据集,限制了其在资源稀缺手语中的适用性;Transformer方法依赖视觉线索和骨骼坐标序列,而非精确建模类似关节角度变化的手部关节几何关系;传统注意力机制对所有时序线索赋予同等权重,降低了对视觉线索分离至关重要的细微局部运动的敏感度。因此,在Transformer电路中融入几何特征和自适应时序注意力是提升系统鲁棒性和泛化能力的有前景方向。
尽管Transformer架构实现了手语识别和翻译的集成端到端训练,仍存在若干未充分解决的问题:首先,Transformer模型通常需要大规模标注数据集和可观的计算资源,限制了其在低资源手语和边缘设备部署场景的应用;其次,模型主要依赖从原始视频特征提取的视觉令牌嵌入,可能仍包含冗余背景信息;第三,Transformer架构直接忽略了手臂的几何结构(如帧内关节夹角);此外,瞬时注意力机制对所有令牌的处理方式相同,存在手指运动细微动态激活不充分的风险。因此,结合几何属性和灵活聚焦机制以提升系统可靠性和适配性仍是待解决问题。
有研究提出交叉注意力(Cross-Attention, CA)模块处理RGB和光流等多模态数据以分析复杂手势,虽降低了计算成本并提升了识别质量,但未解决模型复杂度与速度的平衡问题;对比视觉-文本手语识别(Contrastive Visual–Textual SLR, CVT-SLR)系统在单模态和多模态方法上均表现更优,但对预训练模型的依赖可能限制其在新数据库或新领域的灵活性;连续手语识别中使用的语际手语注意力(Inter-Gloss Attention, IIGA)模块在WER指标上表现良好,但需要背景去除等精细预处理步骤,系统仍对真实环境干扰敏感;相对空间Transformer(Relative Spatial Transformer, RST)架构编码空间相对关系而非绝对坐标,提升了模型区分空间关系的能力,但其在更大词汇量或特定用例上的可扩展性仍待验证。总体而言,Transformer手语识别模型虽具备高精度和复杂序列分析能力,但高计算需求、对数据库质量的依赖、无法充分处理手指手势等细微几何特征仍是研究者面临的主要挑战。
3.4 基于图的空间-时间建模方法
图卷积网络(Graph Convolutional Network, GCN)可通过分析骨骼关节坐标有效建模手语序列中的空间和时间模式。在基于姿态的词级手语识别(word-level sign language recognition, WSLR)框架中,空间依赖由GCN确定,时间关系采用双向Transformer编码器(Bidirectional Encoder Representations from Transformers, BERT)建模,该方法在WLASL数据集上比传统基于姿态的方法预测准确率提升约5%,但其在多样化数据集和复杂真实场景下的泛化能力尚未充分探索。
针对复杂视频背景和多光照场景挑战,多帧结构支撑的多流手语图像形变网络(Sign Language Image Deformation Network, SL-IDN)采用4个特征流的27个主节点,在WLASL、AUTSL和CSL数据集上展现了强泛化能力,但其在大规模无约束视频上的性能尚未完全验证。多分支注意力模型融合时空图特征与深度神经表征处理动态手部运动,在MSRA、DHG和SHREC’17数据集上分别实现94.12%、92.00%和97.01%的准确率,但这些高准确率通常依赖预处理或理想化的骨骼数据,在噪声或遮挡环境中鲁棒性可能受限。
包含约束配置的残差GCN轻量流水线可有效建模时空依赖,降低计算成本并保持高性能,在WLASL-300、WLASL-1000和LSA-64数据集上准确率分别为27.62%、26.97%和100%,但性能在大规模复杂数据集上出现明显下降,表明可扩展性是一大局限。
为更好捕捉手臂和手腕的局部拓扑,手部感知图卷积网络(HAND-aware graph convolutional networks, HA-GCN)通过使用所有关节和骨骼的子图在AUTSL数据集上优于先前模型,提供了包含数据集的丢图功能;图卷积聚焦网络(Graph Convolution Attentive Residuals, GCAR)通过集成多阶段图滚动和聚焦机制提升了性能;结合时空图卷积网络(Spatial–Temporal Graph Convolutional Network, ST-GCN)、BiLSTM和3D姿态参数化的模型在RWTH-PHOENIX-2014和中文数据集(Split I)上展现了竞争力。
然而这些方法计算密集,通常需要精细的超参数调优,限制了实时使用。基于手工框架和残差GCN的轻量模型在WLASL和MINDS-Libras数据集上表现更优,同时降低了计算成本,这意味着模型复杂度、准确率和计算效率之间存在需要依据应用场景谨慎权衡的取舍。GCN类识别正通过将焦点从原始像素分析转向结构化姿态和运动分析推动自动翻译系统发展,但性能严重依赖理想化骨骼数据,多模型融合会增加复杂性和过分类风险,这些局限需要结合图形表征与附加模块以增强鲁棒性、捕捉时空依赖并泛化到未见过的手语者。
与基于像素的方法相比,GCN类方法提供了根本不同的表征范式:通过显式建模人体骨骼图结构,其对背景噪声和光照变化具备更强鲁棒性。综述研究证实,在骨骼数据质量较高时,GCN在WLASL和AUTSL等数据集上持续优于基于姿态的基线。但这一优势在真实场景中会成为脆弱点:当姿态估计因遮挡、快速运动、低分辨率视频或不准确的骨骼提取失败时,错误骨骼输入会直接传播到图卷积中,导致识别可靠性下降。此外,多数GCN模型依赖理想化的预处理骨骼数据,这类数据在部署场景中可能无法获取。多流GCN架构的计算开销也限制了其在实时和移动场景中的适用性。这些权衡表明,GCN最适合作为混合架构中的互补组件,而非独立解决方案。
从系统层面看,GCN类方法解决了表观驱动手语识别模型的核心弱点之一,即显式建模身体关节、手部发音器官和运动轨迹之间的结构关系,显著提升了对背景变化、光照变化和某些类型视觉噪声的鲁棒性,因此图基表征在手语者无关识别和多模态融合流水线中愈发重要。
但综述研究也揭示了若干持续存在的挑战:GCN架构的有效性仍高度依赖姿态估计的质量和稳定性,意味着遮挡、运动模糊、低分辨率视频或不准确骨骼提取导致的错误会直接传播到图表征中并降低识别可靠性;此外,许多多流GCN系统因同时处理空间、时间和多模态图结构引入了可观的计算开销,这些约束限制了可扩展性,增加了实时和移动辅助系统部署的复杂度。因此,近期研究趋势日益聚焦于轻量图架构、自适应图注意力机制和混合Transformer-GCN框架,试图在结构感知、计算效率和时序建模能力之间实现平衡。
3.5 混合端到端手语识别和翻译模型
手语翻译模型往往计算成本高昂且全局上下文理解不足。Transformer-CNN混合方法融合CNN的局部特征提取能力与视觉Transformer(Vision Transformer, ViT)的全局表征能力,可有效捕捉细微手势,在字母表ASL数据集上实现99.97%准确率、110帧每秒(Frames Per Second, FPS)的处理速度,仅需5.0吉浮点运算次数(Giga Floating-Point Operations Per Second, GFLOP)。但这些结果通常在受控数据集上获得,模型在遮挡或光照变化等真实场景变异下的鲁棒性尚不明确。
日本手语研究对比了CNN和ViT类架构捕捉相机中角度特征的效果。设Pi,t、Pj,t和Pk,t表示通过MediaPipe姿态估计框架提取的手指关节三维坐标,关节j处的角度特征θj,t表示由相邻关节连接向量形成的夹角,该角度参数的紧凑表征对平移和光照变化比原始坐标符号更不敏感,生成的角特征向量作为ViT编码器特征的输入令牌进入手语识别流水线。
尽管取得上述成果,当前手语识别方法仍存在若干未解决的局限:基于RGB的方法仍易受背景噪声和光照变化影响,基于骨骼的方法部分缓解了这些问题,但依赖原始笛卡尔关节坐标,无法捕捉手指关节之间的几何关系;角度特征表征提供了更紧凑鲁棒的替代方案,因其对平移、尺度变化和光照条件具有不变性,更适合真实场景部署。
基于骨骼关节坐标的角度差表征是手部关节运动的紧凑形式,模型可据此生成具有语义意义的描述,这些特性不受平移、缩放适应和光照变化的影响,使其适合用于真实手语识别系统。该领域仍有若干开放研究问题:首先,角度骨骼表征与Transformer架构结合进行上下文建模的应用仍然有限;其次,手语序列中角度运动动态的深度时序建模尚未得到充分解决;第三,缺乏在受控实验条件下评估多种深度学习架构中角度特征实现的系统性对比研究。基于几何骨骼表征的卷积空间特征提取与Transformer全局上下文建模相结合的混合架构研究也十分有限,依赖角度特征的手语识别系统在真实书写场景(如不同手语者和数据集)中的泛化效率仍是开放性问题。后续研究应系统探索融合角度骨骼特征的Transformer类和混合深度学习架构,重点关注时序序列建模、对真实场景变异的鲁棒性以及实用部署的计算效率。
读唇音频-视觉语音识别(Audio–Visual Speech Recognition, AVSR)模型结合主动形状模型(Active Shape Model, ASM)和CNN,将WER降低6.59%,唇读准确率达95%;结合MediaPipe的CNN-BiLSTM-生成对抗网络(Generative Adversarial Network, GAN)流水线支持识别、翻译和手势生成,分类准确率超过95%,BLEU得分达38.06;双流手语识别/手语翻译模型采用双视觉编码器实现了最先进的性能。但许多混合模型仍使用静态模态融合或简单时序聚合,忽略了对手动和非手动特征的自适应加权,限制了其在自然手语交流中的鲁棒性。
针对卡纳达手语的混合深度学习系统融合CNN空间特征、手动关键点先验、LSTM时序建模和Transformer长程依赖建模,在新医疗领域数据集上训练准确率达97.6%、验证准确率达96.75%、测试准确率达81%,优于传统CNN-LSTM和手动关键点(Manual Keypoint, HKP)-LSTM基线。多尺度上下文感知网络(Multi-Scale Context-Aware Network, MSCA-Net)配备多尺度运动和时序模块,实现了最高的连续手语识别结果;专用模型提升了ASL疑问识别准确率(98.91%),通过脉冲神经网络提升了效率,或实现了印尼手语(Sistem Isyarat Bahasa Indonesia, SIBI)到印尼语的快速翻译(准确率96%–99%)。
区域特定系统包括采用改进YOLOv7的维吾尔手语识别、WER为8.82%的埃塞俄比亚手语(Ethiopian Sign Language, EthSL)识别,以及准确率达94%的阿塞拜疆手语(Azerbaijani Sign Language, AzSL)识别。YOLOv8、SSD与MobileNet V2、双分支混洗注意力机制-YOLOX(Dual-branch Shuffle Attention Mechanism–You Only Look Once version X, DSA-YOLOX)等轻量检测模型提升了实时连续手语识别性能并降低成本。多尺度特征融合-欧几里得Transformer(Multi-Scaled feature Fusion–Euclidean Transformer, MSF-ET)、双流全手网络等先进融合方法在CSL和AUTSL数据集上刷新了基准。
其他研究探索了ASL的长短期循环卷积网络(Long-term Recurrent Convolutional Network, LRCN),以及结合MobileNet-LSTM的多模态阿拉伯手语数据集,在手语者依赖模式下准确率达99.7%。多模态特征融合的融合特征向量通过拼接运算符产生统一的多模态特征向量,整合手动和非手动信息,为识别模型学习手势与非手动特征之间的跨模态依赖开辟了路径,这对多通道传递语义的手语具有重要意义,但两类模态可能对所有手语手势的成因贡献不均。融合特征向量经线性分类器和softmax函数转换为所有特征类的归一化概率,生成对手部特征或头部运动敏感的模型视觉表征,训练时通常采用交叉熵损失优化输出层,使模型学习判别性多模态特征表征。
混合多模态架构是当前高级手语识别的主流研究方向,因其融合了多种表征范式的互补优势,包括CNN空间提取、Transformer上下文建模、GCN结构推理以及手动与非手动语言线索的多模态融合。综述研究一致表明,这类系统在涉及复杂时序语义的连续手语识别和手语翻译任务中实现了最强的基准性能。
但混合系统架构复杂度的提升也带来了显著的实际挑战:首先,多特征流的集成大幅增加了计算成本、内存消耗和训练需求,限制了其在移动和嵌入式辅助平台上的部署可行性;其次,许多多模态融合策略依赖假设所有模态重要性相等的静态加权机制,但面部表情、手部运动、姿态动态和上下文信息的贡献在不同手语和交流场景中差异显著;第三,多数报告的基准结果在相对同质的受控实验条件下获得,可能高估真实世界泛化能力。这些观察结果表明,手语识别的未来进展不仅依赖于架构复杂度的提升,还依赖于开发自适应融合机制、面向轻量部署的模型以及能够反映真实手语环境的更具生态学效度的评估协议。
3.6 训练迁移与其他方法
迁移学习、特征增强和辅助策略被用于提升手语识别准确率。通过字幕对齐特征和外部类别质心记忆增强词级手语识别模型,虽提升了识别效果,但对外部标注的依赖可能限制其在无对齐字幕领域的应用。CVPR 2021 ChaLearn LAP大规模手语者无关孤立手语识别挑战赛在AUTSL数据集(226个手势,36000段视频)上评估了包含RGB、深度、姿态估计、迁移学习、集成学习和时空模型的多种多模态方法,准确率超过96%,但相似手势、真实性和解释问题仍然存在,凸显了平衡数据集和上下文注意力的必要性。
有研究提出了Sign Hidden-Unit BERT(SHuBERT),在1000小时ASL视频上训练的自监督编码器,扩展至多流视觉输入(手、脸、身体),结合MediaPipe关键点、DINOv2特征和K-means聚类,在ASL翻译(How2Sign、OpenASL、FLEURS-ASL)和孤立识别(ASL Citizen、SEM-LEX)任务上实现了最先进性能。其自监督多流聚类预测目标通过最小化样本在流中的伪标签分配概率与模型预测的聚类分布之间的差异,实现跨多特征流的共享潜在表征学习,这对标注数据难以获取的低资源手语极具价值,但基于聚类的自监督目标主要捕捉全局语义结构,可能无法充分建模连续手语识别任务所需的细粒度时序手势动态和细微手指发音模式。
跨流一致性约束最小化不同流中提取的潜在特征嵌入之间的欧氏距离,鼓励模型生成与特定视频片段对应的模态无关的姿势表征,在跨书写方法、光照变化和部分遮挡下保持一致性,通过跨多流的对齐隐藏嵌入为所有语义身份提供相同的表征。但自监督学习模型中识别的手语数据集依赖性降低的同时,跨多流的聚类方法仍存在局限:静态聚类更常用于这些方法,无法充分捕捉手语动作执行期间的时序动态;此外,基于聚类的自监督学习通常聚焦整个视频的语义,可能无法充分建模细粒度手指运动或短时运动模式。跨流一致性约束通常假设所有模态流的重要性均匀,这可能不符合某些手势类型占主导的真实手语场景。因此,融合时序注意力机制和细粒度几何特征建模的自适应多流自监督学习框架仍是开放研究课题。
其他研究提出了集成孤立手语识别流水线,结合目标数据增强、回归头和交并比(Intersection-Over-Union, IoU)平衡分类损失;开发了源自12个专家来源的美国手语知识图谱(American Sign Language Knowledge Graph, ASLKG),在该图谱上训练的神经符号模型实现了91%的孤立手语识别准确率、14%的未见语义特征预测准确率和36%的YouTube-ASL主题分类准确率。子空间和多模态融合方法提升了训练准确率,但非视觉泛化和跨语言翻译准确率仍暴露出域偏移、类别混淆和对高质量多模态输入的依赖等持续问题。尽管迁移学习和自参照策略具备优势,但其有效性取决于学习数据的质量,需要仔细验证和包含准确且上下文相关关键假设的数据库管理。
迁移学习和自监督方法是解决低资源手语数据稀缺问题最有前景的方向。SHuBERT等模型证明,在大型未标注手语视频语料库上进行预训练,可在标注数据少得多的情况下实现有竞争力的性能。但迁移学习的有效性关键取决于源手语和目标手语之间的域接近程度:从ASL学到的特征可能无法有效迁移到结构不同的语言(如KSL,其在手形库、空间语法和非手动标记使用上存在差异)。此外,基于聚类的自监督目标通常针对全局视频级语义优化,可能无法充分捕捉单个音系特征的细粒度时序动态。这些观察结果凸显了将语言特定预训练语料库和时序感知自监督目标作为低资源手语研究优先方向的重要性。