
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer的孟加拉语手语单词级识别技术,采用相对量化编码方法
《Scientific Reports》:Transformer-based word level Bangla sign language recognition using relative quantization encoding
【字体: 大 中 小 】 时间:2026年06月04日 来源:Scientific Reports 3.9
编辑推荐:
摘要 对于像孟加拉语这样的低资源语言,手语识别(SLR)面临手势表达的多样性、视角差异以及标注数据集有限的问题。在本文中,我们提出了BdSLW401,这是一个大规模、多视角的孟加拉手语(BdSL)数据集,包含401个手势和102,176个视频样本,这些样本来自
对于像孟加拉语这样的低资源语言,手语识别(SLR)面临手势表达的多样性、视角差异以及标注数据集有限的问题。在本文中,我们提出了BdSLW401,这是一个大规模、多视角的孟加拉手语(BdSL)数据集,包含401个手势和102,176个视频样本,这些样本来自18位手语者的正面和侧面视角。为了改进基于Transformer的手语识别技术,我们引入了相对量化编码(RQE)方法。该方法通过将关键特征点与生理参考点关联起来并对运动轨迹进行量化,从而优化了模型的注意力分配。实验结果显示,在WLASL100数据集上,RQE使错误率降低了44.3%;在SignBD-200数据集上降低了21.0%;同时在BdSLW60和SignBD-90数据集上也取得了显著提升。然而,在大规模数据集(如WLASL2000)中,固定量化方法的效果不再明显,这表明需要采用自适应编码策略。进一步开发的RQE-SF变体通过稳定肩部关键特征点的位置,虽然在一定程度上牺牲了侧面视角识别的准确性,但提升了手势的一致性。注意力图谱分析表明,RQE通过关注主要的手势生成部位(如手指、手腕)以及更具辨识度的帧内容,提高了模型的可解释性。通过引入BdSLW401数据集并验证RQE增强型结构化嵌入方法的有效性,本研究为低资源语言的手语识别技术带来了进展,并为未来的相关研究奠定了基础。