基于边缘的视觉-语言辅助系统,专为视障人士设计:一种量化的视觉语言模型(VLM)方法
《IEEE Transactions on Neural Systems and Rehabilitation Engineering》:Edge-Based Vision-Language Assistive System for the Visually Impaired: A Quantized VLM Approach
【字体:
大
中
小
】
时间:2026年05月26日
来源:IEEE Transactions on Neural Systems and Rehabilitation Engineering 5.2
编辑推荐:
摘要:本文提出了一种新型的、可部署在边缘设备的辅助系统,专为视障人士设计,该系统基于视觉语言模型(VLMs)进行工作。现有的基于云的图像字幕生成方案存在延迟问题、对互联网连接的依赖性,以及过于简化的场景描述,这些都无法传达进行实际导航所需的丰富上下文信息。为了解决这些问题,我们
摘要:
本文提出了一种新型的、可部署在边缘设备的辅助系统,专为视障人士设计,该系统基于视觉语言模型(VLMs)进行工作。现有的基于云的图像字幕生成方案存在延迟问题、对互联网连接的依赖性,以及过于简化的场景描述,这些都无法传达进行实际导航所需的丰富上下文信息。为了解决这些问题,我们开发了一种独立、可穿戴的系统,能够在设备上实时解析场景信息,而无需依赖云端。该系统集成了LLaVA-NeXT-13B VLM的量化版本、语音识别(Whisper)和语音合成(PIPER)技术,运行在NVIDIA Jetson Orin NX和基于Raspberry Pi的输入模块上。我们的框架通过基于按钮的界面和蓝牙音频输出来强调直观的用户交互,从而最小化用户的认知负担。通过大规模基准测试(如VizWiz-VQA和VQAv2)验证了量化方法的有效性,结果显示与原始模型相比,准确率仅下降了2.6%和0.9%。参与评估的28名用户将本系统与基线图像字幕生成模型进行了对比,结果显示图像识别准确率提高了25%。该系统具有较高的可用性评分,并且保持了合理的延迟时间(每次查询4-5秒),证明了其在实际应用中的可行性。这项工作推动了可扩展、可解释且易于使用的AI驱动辅助技术的发展,为视障人士提供了更大的独立性和互动能力。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号