《International Journal of Cognitive Computing in Engineering》:IoT-powered assistive technology for real-time translation of sign language
编辑推荐:
交流是一项基本人权。然而,全球数以百万计的失聪人士在日常互动中仍持续面临显著障碍,其主要原因在于缺乏可及性的沟通工具。本文提出了一种物联网(IoT)使能系统,该系统采用基于可穿戴手套的体系结构,旨在通过将希腊手语(GSL)翻译为文本来改善失聪群体与健听群体之间
交流是一项基本人权。然而,全球数以百万计的失聪人士在日常互动中仍持续面临显著障碍,其主要原因在于缺乏可及性的沟通工具。本文提出了一种物联网(IoT)使能系统,该系统采用基于可穿戴手套的体系结构,旨在通过将希腊手语(GSL)翻译为文本来改善失聪群体与健听群体之间的交流。所提出系统将可穿戴传感器技术与模式匹配算法相结合,能够准确捕获并解释希腊手指字母表及基于手势的符号。基于实验评估,系统获得了95.63%的平均识别准确率,而当手部位置发生改变时,传感器故障被识别为误分类的主要原因。通过细致的参数调优,例如阈值校准,以及针对传感器数值与预定义阈值进行比较的算法优化,该翻译器在将手语手势转换为书面文本方面表现出准确且可靠的性能,标志着包容性通信技术的重要进展。
尽管基于物联网的可穿戴系统已经取得了显著进步,但在实现手语的实时、准确且语言特异性翻译方面仍存在明显缺口。现有大多数方法侧重于通用手势或美国手语(ASL)等广泛使用的语言,而希腊手语(GSL)在很大程度上仍未得到充分探索。此外,表达能力、上下文理解与通信稳定性方面的局限性仍阻碍其在真实场景中的部署。所提出的SpeakWithSigns+系统通过引入一种基于物联网的可穿戴体系结构来应对这些挑战,该体系结构可采集同步多传感器数据,将其传输至云服务器,并执行实时模式识别,以实现对希腊手语(GSL)手势的精确翻译。该研究进展有助于推动面向失聪与听力障碍群体的包容性、自适应以及以人为中心的交互技术发展。
1. Introduction
论文首先从手语作为聋人群体核心交流方式的社会与语言学意义切入,指出手语不仅承载信息传递功能,还承担情感表达与社会互动功能,并强调其作为自然形成语言系统的独立性。文中指出,尽管手语在聋人社群内部广泛使用,但与不懂手语的健听者交流仍然困难,这种障碍可能进一步导致社会隔离以及对关键公共服务的受限获取。在此基础上,文章引入物联网(IoT)技术背景,认为传感器、嵌入式系统与网络通信的结合,为构建实时手语翻译辅助系统提供了可行路径。作者进一步指出,现有研究多集中于美国手语(ASL)或通用手势识别,希腊手语(GSL)在相关研究中代表性不足,因此提出面向GSL的SpeakWithSigns+系统,作为一种语言特异性的可穿戴翻译方案。文章同时坦陈当前版本系统主要面向希腊手指字母表,尚未纳入情绪、面部表情及复杂语境信息,但通过实验室条件下的网络稳定性测试、服务器响应时长调节和组件兼容性验证,说明系统已具备进一步发展的技术基础。作者还回顾了希腊手语相关技术的发展脉络,包括文本到GSL、GSL到文本以及基于规则机器翻译(RBMT)的系统,借此说明本研究在低成本、可穿戴、IoT化和面向GSL识别方面的创新价值。
2. Methodology
本部分系统介绍了SpeakWithSigns+的整体设计思想、硬件组成、数据处理流程、识别算法以及实验设计。研究目标是构建一种便携式、低成本、具备实时传输能力的希腊手语翻译手套,以支持失聪者与健听者之间更顺畅的文字沟通。
2.1. SpeakWithSigns+
作者将SpeakWithSigns+定义为一种便携式智能手套设备,其翻译过程包括数据采集、数据处理和结果翻译三个阶段。使用者在佩戴手套后做出希腊手指字母手势,集成于手套上的柔性传感器(flex sensors)实时采集各手指弯曲程度,并将测得数值发送至服务器进行匹配分析,随后在指定网页端显示对应字母。系统核心控制单元采用ESP LOLIN32,即基于ESP32-WROOM-32的微控制器平台。文中指出,该器件具有双核中央处理器(CPU)、最高240 MHz处理能力、Wi-Fi与Bluetooth无线连接能力、较高性价比以及良好的外设扩展性,因此适合构建IoT可穿戴原型。系统依赖稳定网络连接,研究中通过智能手机热点提供网络接入,从而保证手套与服务器之间的数据通信。
2.2. System components and hardware specifications
在硬件层面,SpeakWithSigns+由微控制器板、锂聚合物电池(Li-Po battery)、5个柔性弯曲传感器、导线组件、电容器和织物手套基底构成。5个柔性传感器分别对应5根手指,每个传感器本质上是电阻型模拟弯曲传感器,其电阻随弯曲程度变化而变化,典型范围约为10 kΩ至100 kΩ。系统通过分压电路将电阻变化转化为可测电压差,并由ESP32的模数转换引脚(ADC pins)进行采样与数字化。作者指出,这种结构使每个手势能够形成一组独特的电压模式,为后续模式匹配识别奠定基础。便携式电源设计可支持约4至5 h连续运行,从而兼顾移动性与实际使用需求。整体硬件架构体现了低功耗、轻量化与可穿戴特征。
2.3. Data collection, processing and extraction
在数据流设计方面,文章进一步细化了从手势输入到字符输出的处理链路。用户做出字母手势后,手套中的传感器同步采样手指弯曲数值并上传至西马其顿大学服务器。服务器依次将实时输入与预先存储的字母模板进行比较,若检测到符合范围的模式,则输出相应字母;若全部24个字母模板均未匹配成功,则返回“Not Valid”。这一过程说明系统采用串行模板比对策略,而非端到端学习式分类框架。数据提取核心在于为每个字母建立可区分的五维特征表示,并通过阈值范围限制降低识别歧义。
2.4. Algorithm
算法部分详细说明了模式匹配(pattern matching)识别机制。研究人员首先针对希腊手指字母表中的每个字母执行采样校准,对5个传感器分别记录重复实验中的最小值与最大值。随后,对每个字母j和每个传感器i,计算该字母对应的平均最小值Min
i,j和平均最大值Max
i,j,据此构建该字母的参考范围向量。识别阶段中,系统将实时采样值与这些预存范围进行基于阈值的相似性比较;若5个传感器数值均落入对应容差区间,则判定当前手势属于相应字母,否则继续匹配下一模板,直至找到对应类别或输出无效结果。该方法具有实现简单、对训练数据依赖较小、适合嵌入式边缘设备部署等优势,尤其适用于GSL这类数据资源有限的语言场景。文中还说明系统源码已公开,有利于后续复现和扩展研究。
2.5. Experiments
实验部分围绕参数整定、算法优化、识别精度评估和统计验证展开。研究人员为希腊手指字母表中的每个字母采集20组手势样本,并邀请3名正在学习GSL的参与者完成测试。测试在受控实验室环境下进行,同时覆盖一天中不同时间段,以观察不同亮度条件下系统的稳定性与一致性。实验过程中,研究人员通过多轮迭代调节识别阈值和算法参数,并重点分析误分类来源。结果显示,系统平均识别准确率达到95.63%。错误主要来自传感器异常,特别是在快速动作、部分动作或手势转换期间,柔性传感器对中间状态记录不够稳定,导致与参考模板匹配偏差。为此,系统将服务器响应间隔调整为8 s,以提高采集平滑性和处理准确度;同时实施传感器校准以减小机械应力和灵敏度差异带来的误差。统计分析方面,文章采用Wilson置信区间(Wilson confidence interval)估计总体准确率范围,95%置信区间为93.40%至97.12%;采用二项检验(binomial test)验证系统表现显著高于随机猜测基线,结果显示p<1×10
?10;采用同质性卡方检验(chi-square test of homogeneity)分析不同字母间识别难度差异,得到χ
2(23)=46.16,p=0.0029,表明部分字母确实更难区分。
3. Results
结果部分展示了系统在希腊手指字母识别任务中的整体表现。研究指出,24个字母中有15个达到100%识别准确率,显示出较高的模板区分能力。个别字母存在混淆现象,例如Γ偶尔被误识为P,E偶尔被误识为O;Z、H和Π等字母准确率为85%,Γ、P和E为95%。作者将这类错误主要归因于两方面:其一是8 s传感延迟可能使前一手势残留并被误登记;其二是某些字母在手指弯曲模式上较为接近,导致传感器输出数值相似,从而在阈值比较中产生歧义。文章还将本系统与其他手指拼写识别研究进行背景性比较,指出已有研究在不同数据集上的字母级准确率多为52.9%至75.6%,而SpeakWithSigns+在GSL任务上达到95.63%。不过作者也强调,由于缺乏统一的GSL公开数据集,不能据此进行严格的直接横向比较,因此相关对比仅用于说明当前领域的大致技术水平。
4. Discussion
讨论部分对系统优势与局限进行了综合分析。作者认为,SpeakWithSigns+通过反复实验与精细调参,实现了较稳定的希腊手指字母识别性能,在面向希腊听障群体的辅助沟通技术中具有现实意义。其优势主要包括低成本、结构轻量、IoT架构清晰、部署灵活以及较高识别准确率。与此同时,文章明确指出若要扩展至复杂连续手语,仅依赖当前的模式匹配与手指弯曲传感仍然不足,未来需要引入机器学习与深度学习(deep learning)方法以更好地建模时间依赖与空间依赖关系。作者还讨论了系统对环境因素的敏感性,例如湿度、雨雪及传感器接触水分可能导致数据失真;不同用户的手部尺寸差异与手套贴合度也会影响校准与测量稳定性。此外,尽管系统已被设计为低预算方案,但高质量柔性传感器、微控制器与无线模块仍会带来一定成本压力。文章还提到电磁噪声等外部干扰可能影响识别稳定性,这些都是后续系统迭代需要重点解决的问题。
5. Conclusion
结论部分总结指出,SpeakWithSigns+作为一种基于IoT的便携式手语翻译手套,为将希腊手语转换为书面文本提供了切实可行且成本较低的解决方案。该系统总体成本约为70美元,识别希腊手指字母的平均成功率达到95.63%,并且在环境光照变化下保持稳定。研究强调,该系统的核心价值在于促进失聪者、听障者与健听者之间的沟通,并可作为学生、教师和口译人员学习GSL的教育辅助工具。与此同时,作者指出当前系统仍局限于字母级识别,对完整词语、短语和连续手语的支持尚未实现;面部表情与身体动作等关键信号尚未纳入识别框架;对持续Wi-Fi和服务器连接的依赖也限制了离线场景中的实时使用能力。未来研究将朝向构建更大规模GSL数据集、融合机器学习与深度学习模型、结合计算机视觉(computer vision)与手套传感数据的多模态融合(multimodal fusion)方向推进,以最终实现从连续手语到连贯文本或语音的端到端翻译。
5.1. Future trends
未来趋势部分进一步描绘了SpeakWithSigns+的发展路线。作者认为,提升系统功能性与可负担性的关键在于引入更先进的机器学习算法,使系统能够适应个体差异并形成个性化识别机制。由于当前缺乏大规模GSL数据集,静态手势与词汇映射仍需人工构建,这成为系统扩展的主要瓶颈。文章指出,现阶段系统仅支持静态手势,因为当前传感配置只记录手指数据,尚未覆盖手腕旋转、空间位置与连续运动信息。未来若增加相关传感器,系统将具备向动态手语识别框架扩展的可能。作者还提出,多模态输入融合将显著增强解释能力,例如将手势识别与面部表情分析、身体动作跟踪相结合。除此之外,研究团队计划将SpeakWithSigns+进一步整合进交互式教育平台,引入游戏化学习机制,并在后续版本中探索增强现实(AR)与混合现实(MR)技术,以构建沉浸式手语学习与实践环境。整体而言,作者认为该技术未来不仅可用于手语到文本的翻译,也有潜力发展为综合性的辅助沟通与互动学习平台。