基于边缘的视觉-语言辅助系统，专为视障人士设计：一种量化的视觉语言模型（VLM）方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《IEEE Transactions on Neural Systems and Rehabilitation Engineering》：Edge-Based Vision-Language Assistive System for the Visually Impaired: A Quantized VLM Approach

【字体：大中小】 时间：2026年05月26日 来源：IEEE Transactions on Neural Systems and Rehabilitation Engineering 5.2

编辑推荐：

　　摘要：本文提出了一种新型的、可部署在边缘设备的辅助系统，专为视障人士设计，该系统基于视觉语言模型（VLMs）进行工作。现有的基于云的图像字幕生成方案存在延迟问题、对互联网连接的依赖性，以及过于简化的场景描述，这些都无法传达进行实际导航所需的丰富上下文信息。为了解决这些问题，我们

摘要：

本文提出了一种新型的、可部署在边缘设备的辅助系统，专为视障人士设计，该系统基于视觉语言模型（VLMs）进行工作。现有的基于云的图像字幕生成方案存在延迟问题、对互联网连接的依赖性，以及过于简化的场景描述，这些都无法传达进行实际导航所需的丰富上下文信息。为了解决这些问题，我们开发了一种独立、可穿戴的系统，能够在设备上实时解析场景信息，而无需依赖云端。该系统集成了LLaVA-NeXT-13B VLM的量化版本、语音识别（Whisper）和语音合成（PIPER）技术，运行在NVIDIA Jetson Orin NX和基于Raspberry Pi的输入模块上。我们的框架通过基于按钮的界面和蓝牙音频输出来强调直观的用户交互，从而最小化用户的认知负担。通过大规模基准测试（如VizWiz-VQA和VQAv2）验证了量化方法的有效性，结果显示与原始模型相比，准确率仅下降了2.6%和0.9%。参与评估的28名用户将本系统与基线图像字幕生成模型进行了对比，结果显示图像识别准确率提高了25%。该系统具有较高的可用性评分，并且保持了合理的延迟时间（每次查询4-5秒），证明了其在实际应用中的可行性。这项工作推动了可扩展、可解释且易于使用的AI驱动辅助技术的发展，为视障人士提供了更大的独立性和互动能力。

联系信箱：

粤ICP备09063491号

摘要：

热点排行