《Algorithms》:MCFusion: A Lightweight RGB-T Pedestrian Detection Method with Progressive Thermal Compensation
编辑推荐:
人口老龄化对口腔交流构成了重大挑战,这是由于与年龄相关的发音、言语流畅性和语速变化所致,即使在未患有神经退行性疾病的老年人中也是如此。尽管基于语音的辅助技术取得了进展,但仍然缺乏支持在非临床环境中进行结构化、自主语音练习的综合性工程解决方案。本研究提出了一种确
人口老龄化对口腔交流构成了重大挑战,这是由于与年龄相关的发音、言语流畅性和语速变化所致,即使在未患有神经退行性疾病的老年人中也是如此。尽管基于语音的辅助技术取得了进展,但仍然缺乏支持在非临床环境中进行结构化、自主语音练习的综合性工程解决方案。本研究提出了一种确定性的、基于规则的语音评估工作流,该工作流在一个混合网络-移动辅助系统中实现。该工作流集成了音频捕获、基于云的自动语音识别(automatic speech recognition, ASR)、基于规则的发音评估、即时多模态反馈以及进度监控,统一于一个系统架构中。所提出的架构包括一个面向老年人的移动应用程序和一个供护理人员配置和监控的网络平台。采用了一种原型导向的方法,包括需求获取、系统设计、实施以及使用思维出声法和系统可用性量表(System Usability Scale, SUS)进行可用性评估。结果显示,在受控评估条件下系统行为稳定,初步评估会话中平均识别准确率为90%,响应延迟为1.82秒,支持在引导式语音练习期间实现稳定的实时交互。这些发现证明了所提出的辅助架构作为老年人引导式语音支持的一种可访问且可复现的解决方案的可行性。
**研究背景与问题**
人口老龄化对老年人的口腔交流能力提出了挑战,即使未患有神经退行性疾病,老年人也会出现发音困难、言语流畅性下降和语速变化等问题。传统语音刺激方法(如面对面课程、重复练习)存在方法僵硬、缺乏及时反馈、难以适应老年人认知和情感特点等局限,导致动力不足和中断练习。现有技术系统多面向年轻人群或临床环境,缺乏针对老年人需求的集成工程解决方案。当前基于语音的辅助系统在工程层面存在显著局限:多数解决方案依赖孤立组件(如独立的语音识别模块、对话界面或游戏化活动),缺乏统一系统架构来整合交互节奏、反馈机制、个性化逻辑和护理人员监督。此外,这些系统缺少模块化设计以支持自适应工作流、基于角色的访问和持续监控,限制了在真实老年学环境中的部署。同时,混合网络-移动架构的缺失进一步制约了可扩展性、可配置性和长期可持续性。因此,设计一个集成的、可访问的且适应性强的技术架构以支持老年人语音刺激,同时兼顾用户异质性、交互约束和护理人员参与,成为一个明确的工程挑战。
**研究内容与结论**
研究人员提出了一种基于模块化网络-移动工程架构的用户中心解决方案,集成了一个面向老年人的移动应用程序和一个供护理人员配置和监控的网络平台。该系统整合了受控音频捕获、基于云的自动语音识别(ASR)、确定性规则驱动的发音评估、即时多模态反馈和进度监控,形成一个统一的辅助环境。研究的贡献不在于引入新的语音识别算法,而在于将基于规则的发音评估、多模态反馈、可配置的进度控制和护理人员监督正式集成到一个可访问的混合网络-移动架构中,以支持老年人的语音练习。通过原型化方法(包括需求获取、系统设计、实施和可用性评估)验证了系统的可行性。结果表明,系统在受控条件下行为稳定,初步评估中识别准确率为90%,平均响应延迟为1.82秒,支持实时交互。可用性评估(思维出声法和SUS量表)显示系统可用性得分为86.00(标准差2.85),属于“优秀”范围。该研究发表在《Algorithms》。
**关键技术方法**
研究人员主要采用了以下关键技术方法:①规则化工作流(rule-based workflow),通过确定性决策规则对发音尝试进行分类(正确/错误),确保可预测的执行行为;②基于云的自动语音识别(ASR),利用Google Speech-to-Text API(西班牙语-厄瓜多尔语言模型)将语音转换为文本;③多模态反馈生成,结合听觉和视觉反馈指导用户交互;④可用性评估方法,包括思维出声法(Thinking Aloud)和系统可用性量表(SUS)问卷,由5组老年人与护理人员组成的配对参与评估。样本来自老年学中心,老年人未患有神经退行性疾病(依据护理人员报告和机构记录)。
**研究结果**
**4.1 开发的技术产品**:通过护理人员访谈和文献回顾,明确了系统需求,包括个性化发音练习、即时反馈、视觉和听觉无障碍、可配置的进度路径。设计了用例图(展示管理员、护理人员和老年人的交互)、系统架构图(由Web前端(Next.js、React、Tailwind CSS)、Flutter移动应用、Node.js/Express.js后端和PostgreSQL数据库组成,集成Google Speech-to-Text API)以及高保真原型(包括护理人员管理的参与者列表、进度查看界面,以及移动应用中的待完成测试和发音练习界面)。
**4.2 语音评估工作流的运行结果**:工作流在受控条件下稳定运行,成功完成了所有定义阶段的顺序执行(受控音频捕获、ASR处理、规则匹配、反馈生成、进度控制)。50次发音尝试中,识别准确率为90%。决策逻辑在多次执行中保持稳定,及时生成立即的听觉和视觉反馈。进度控制机制正确实现了等级转换和重复循环,与护理人员在Web平台上的配置一致。
**4.3 技术性能评估**:系统平均响应延迟为1.82秒(标准差0.41),其中音频传输、云ASR处理和反馈生成阶段的延迟分别为0.22秒、0.97秒和0.63秒。整体识别准确率为90%(50次尝试中45次正确)。这些指标表明系统在受控交互条件下足够稳定,支持引导式实时交互,为未来大规模纵向研究提供了概念验证。
**4.4 可用性评估**:思维出声法揭示了老年人需要初始支持,但熟悉后能无困难完成任务,同时发现了导航混淆、文本字号小、长时间停顿等具体问题。SUS量表得分为86.00(SD=2.85),为“优秀”级别,正面项目均值高于4(原始量表),负面项目均值低,参与者间一致性高,表明系统易用性、学习简单性和一致性良好。
**讨论与结论**
讨论部分指出,将语音识别与受控响应节奏整合对适应老年人言语模式(如缓慢发音和频繁停顿)至关重要。确定性决策规则和异步处理确保了可预测的行为,但云ASR引入的网络延迟未显著影响交互。游戏化元素(视觉奖励、进度指示器、渐进等级)以低开销方式嵌入,保持了系统响应性。护理人员作为主动角色参与(通过Web平台进行个性化任务配置和监控)是该工作的核心贡献,克服了现有系统缺乏监督的局限。局限性包括探索性评估和样本量小,可能导致顺从偏差和社会期望偏差。未来工作应进行纵向评估、比较分析、引入客观语音指标(如词错误率WER和句子错误率SER)、细化延迟分解分析,并增强系统对不同老年学环境的鲁棒性。
研究结论:本研究证明了一个集成的、结构化的、可配置的方法在混合网络-移动环境中支持老年人语音练习的可行性。该方案通过将自主使用与护理人员指导和监控相结合,提供了传统方法的替代方案。轻量级游戏化元素足以维持参与度而不增加复杂性。护理人员作为活跃用户强调了基于角色和监控的技术模型在真实环境中的潜力。可用性评估表明系统对老年人和护理人员均可理解且可用,支持迭代改进而不需大幅修改核心设计。然而,受限于探索性范围和样本量,未来需要纵向验证、集成更鲁棒的自适应语音识别模型,并纳入客观语音表现指标。