适用于边缘设备的轻量级视觉问答系统，用于辅助视觉功能

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Image and Vision Computing》：Lightweight Visual Question Answering system for assistive vision on edge device

【字体：大中小】 时间：2026年04月08日 来源：Image and Vision Computing 4.2

编辑推荐：

　　针对视力障碍人群的轻量级视觉问答模型VQA-lite，通过知识蒸馏将大模型能力迁移至小模型，结合低秩适应LoRA和跨槽注意力机制优化多模态特征融合，在VizWiz数据集上验证其有效性，并成功部署于NVIDIA Jetson边缘设备，分析显示该模型在内存占用和推理速度上达到平衡，支持实时视觉问答应用。

Sushmita Upadhyay | Smrutipragya Panda | Sanjaya Shankar Tripathy

电子与通信工程系，Birla理工学院，Mesra，Ranchi，835215，Jharkhand，印度

摘要

轻量级视觉问答（VQA）模型在当今世界有广泛的应用，尤其是在便携式、移动设备或机器人设备中。视障人士可以从这些设备中大大受益，改善他们的日常生活。本研究重点在于优化VQA系统的核心组件，使其更加轻量化。所提出的轻量级模型使用高效的图像和文本编码器来生成高质量的特征表示。这些特征通过专门设计的架构进行融合，该架构通过槽间注意力机制关注嵌入中的多样化模式。整个架构通过知识蒸馏进行训练，以实现教师模型和学生模型之间的有效知识传递。该模型在VizWiz数据集上进行了评估，该数据集包含了由视障人士拍摄的真实图像。通过在NVIDIA Jetson边缘设备上部署该模型来评估其在现实世界中的性能。详细研究了硬件性能以及模型的延迟和吞吐量。硬件部署和分析是在本地完成的，无需依赖云服务，结果支持该模型适用于基于边缘的计算环境中的VQA任务。

引言

视觉问答（VQA）是一种多模态系统，它整合了图像和文本两种模态，并通过它们生成文本作为输出。这项技术的一个主要应用是帮助视障人士更有效地进行日常活动，形式为轻量级的移动设备。据估计，2020年全球有4330万盲人以及2.95亿中度或轻度视力障碍（MSVI）的人[1]。2022年，在印度，约有495万盲人，7000万人有某种形式的视力障碍，其中24万是儿童[2]。基于人工智能的辅助解决方案可以提供视觉场景理解能力，从而提高视障人士的生活质量并增强他们对周围环境的意识。VizWiz VQA数据集[3]中的图像专门由这些人士拍摄。这些图像往往模糊、失焦或无关紧要，而且数据集中的一些问题由于图像信息不足而无法回答。输入数据的这些特性使得设计辅助VQA模型变得更加具有挑战性。此外，对于实际部署而言，内存需求和推理时间至关重要，因为它们决定了系统是否能够在实时环境中高效运行。

为辅助视觉设计一个可以在边缘设备上部署的轻量级VQA模型面临多个相互关联的挑战。这些挑战包括训练数据有限、视觉输入噪声较大、在资源受限的情况下需要有效的多模态特征融合，以及边缘部署对模型容量和计算成本的限制[3]、[4]、[5]。现代VQA架构集成了强大但体积庞大的视觉和语言编码器，这显著增加了模型的大小和计算复杂性[6]、[7]、[8]。因此，训练这些模型变得具有挑战性且需要大量资源[9]。另外，在边缘或移动设备上部署如此庞大的模型也很困难，因为这些设备通常缺乏处理大型视觉-语言模型（VLM）所需的内存和计算能力[10]。另一方面，较小的VQA模型使用容量有限的视觉和文本编码器，这会导致特征表示的表达能力较弱，从而降低模型的整体性能[5]。

本文提出了一种名为VQA-lite的轻量级VQA模型，该模型采用了知识蒸馏等模型压缩技术，有效减少了模型的大小和复杂性。设计了一种教师-学生架构，利用大型预训练的VLM（教师模型）将其知识蒸馏到VQA-lite模型（学生模型）中，该模型旨在在NVIDIA Orin Nano等边缘设备上运行[11]。边缘部署消除了对云基础设施的依赖。该设备可以在没有互联网连接的情况下独立运行，同时在有连接时仍能与云同步[10]、[12]。为进一步应对训练数据有限和面向边缘的部署限制，采用了低秩适应（LoRA）[13]作为参数高效的微调策略。LoRA不是更新整个模型参数集，而是将可训练的低秩矩阵引入选定的变换器层中[13]。

在轻量级VQA模型中，图像和文本特征之间的跨模态交互可能成为瓶颈，因为编码器的表示能力有限[10]。专家混合（MoE）网络[14]、[15]由多个专门处理输入的专家子网络组成。在轻量级VQA设置中，保留所有令牌的信息至关重要，因为这些模型依赖于容量有限的编码器，而令牌丢失会导致特征丢失。在Soft-MoE中，每个专家接收所有令牌的加权总和，从而避免了令牌丢失，并提高了每个专家内的令牌利用率。它还支持稳定训练，增加了模型容量而不增加计算成本，使其非常适合在较小模型中进行融合[16]。因此，在VQA-lite模型中探索了Soft-MoE用于视觉和文本嵌入的多模态融合。传统的基于MLP的专家在Soft-MoE中独立处理输入令牌，因此无法明确捕获令牌之间的关系[16]。在每个专家中引入令牌级注意力会导致计算成本增加，这对于轻量级模型来说是不理想的[17]。为了解决这一限制，VQA-lite中的专家子网络被设计为在每个专家内部执行槽间注意力。在所提出的设计中，多模态令牌首先通过Soft-MoE中使用的软路由机制聚合成一小组槽。每个槽总结输入中的重要模式，而不是独立处理每个令牌。通过计算每个专家内槽之间的交互，模型能够更有效地捕捉多模态输入中的语义关系。这使得轻量级VQA模型适合在资源受限的边缘设备上部署。

因此，本文的贡献包括：

i.
提出了一种名为VQA-lite的轻量级架构，用于辅助视觉应用。该网络旨在实现紧凑性和鲁棒性的平衡。此外，它还解决了现实世界中的挑战，如噪声图像、训练数据有限和边缘部署限制。
ii.
采用基于Soft-MoE的图像和文本特征融合方法，实现了两种模态的专业化融合。所提出的专家是一种槽间注意力机制，用于建模紧凑多模态特征表示之间的语义和关系交互。
iii.
为了提高轻量级架构的性能，采用了知识蒸馏框架将知识从高容量教师模型传递过来。为了应对训练数据有限的问题，进行了参数高效的训练。
iv.
VQA-lite模型被部署在计算资源有限的边缘设备上，以实现实时视觉问答。在边缘设备上对各种模型进行了详细的性能分析。评估了GPU RAM、吞吐量、延迟、功耗和温度等性能指标。

方法论

本文介绍了VQA-lite，这是一种轻量级VQA架构，足够紧凑，可以在NVIDIA Jetson Orin Nano等边缘设备上部署，专注于为视障人士提供辅助视觉应用。该模型采用轻量级视觉和文本编码器以及基于专家的注意力融合网络，整合多模态特征以创建增强的特征表示，用于答案预测。为了进一步提高轻量级模型的性能

数据集

VizWiz-VQA数据集[3]包含由视障人士使用手机拍摄的物体或周围场景的图像。这是首个为视障人士和真实世界照片创建的视觉问答数据集。VizWiz-VQA包括四种类型的答案：“数字”、“是/否”、“无法回答”和“其他”。在该数据集中，当图像模糊、光线不足或不包含相关内容时，一些问题被标记为“无法回答”。

教师-学生架构的性能分析

在这项分析中，教师模型在VizWiz VQA数据集上进行了微调，表1总结了它们的性能。考虑了多模态VLM（如CLIP、SIGLIP、PaliGemma2）以及单独的视觉和文本编码器（如Gemma、Qwen2.5）来提取特征嵌入。CLIP架构[24]将图像和文本嵌入投影到相同维度的共享潜在空间中，用于测量相似性。SIGLIP[26]在架构上与CLIP类似；然而，它

消融研究

表11总结了有无来自高容量教师的知识蒸馏时VQA-lite架构的性能。实验中使用的教师模型是SIGLIP-t。分析了T5编码器的小型和基础版本。当使用T5-small作为文本编码器时，所提模型的估计参数大小为651.03MB。使用T5-base作为文本编码器时，所提模型的大小增加到988.05MB。然而，其性能也

专家路由可视化

在本节中，专家路由在输入图像上进行了可视化，如图9所示。调度器的权重在槽上进行了聚合，每个专家的路由权重在图像上也进行了可视化。在图9中，绘制了四个专家，蓝色区域表示从某个专家接收更高路由权重的区域。红色区域对应较低的路由权重。可以观察到图像中的不同区域。因此，每个专家捕获

结论

轻量级VQA系统可以在需要快速视觉理解的不同现实场景中发挥重要作用，例如辅助技术、可穿戴设备、移动设备、机器人和其他便携式设备。本研究旨在为视障人士设计一种名为VQA-lite的轻量级VQA模型。提出的槽间注意力作为专家网络，隐式捕获了跨模态和模内关系。实验分析表明

CRediT作者贡献声明

Sushmita Upadhyay：撰写——原始草稿、软件、方法论、概念化。Smrutipragya Panda：软件、方法论。Sanjaya Shankar Tripathy：撰写——审阅与编辑、可视化、方法论、概念化。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：Sanjaya Shankar Tripathy报告称，Birla理工学院提供了行政支持、设备和药品或物资。如果有其他作者，他们声明没有已知的可能会影响本文所报告工作的财务利益或个人关系。

致谢

本研究使用了Birla理工学院Mesra分部提供的DST PURSE 2022 Grant的设施进行。

联系信箱：

粤ICP备09063491号

摘要

引言

相关工作