PMA-VQA:基于渐进式多尺度特征融合与空间自适应注意力机制的遥感视觉问答系统
何一飞(Yifei He)、
邱晨(Chen Qiu)和
顾金光(Jinguang Gu)
《Sensors》:PMA-VQA: Progressive Multi-Scale Feature Fusion with Spatially Adaptive Attention for Remote Sensing Visual Question Answering
Yifei He,
Chen Qiu and
Jinguang Gu
【字体:
大
中
小
】
时间:2026年04月12日
来源:Sensors 3.5
摘要
遥感视觉问答(RS-VQA)对于智能地球观测至关重要,因为它支持对高分辨率航空图像的交互式查询。许多现有方法在处理遥感(RS)场景的精细地理空间推理时遇到困难,这是因为RS场景具有内在的多尺度对象变化和显著的空间异质性。这些模型往往更依赖于语言先验,而不是基于视觉证据的推理。在本文中,我们提出了PMA-VQA,这是一种具有空间自适应注意力的渐进式多尺度特征融合方法,将RS-VQA任务嵌入到基于空间的分层特征集成中。为了实现分层、多级的、基于语言的信息集成,我们提出了一个空间注意力聚合模块(SAAM)和一个渐进式特征融合与分类模块(PFCM)。SAAM利用空间自适应门控机制将跨模态特征与语义上下文对齐,而PFCM则将多尺度表示整合到高级语义抽象和低级空间中。在RS-VQA的低分辨率(LR)和高分辨率(HR)基准测试中的实验结果表明,PMA-VQA在准确性和鲁棒性方面均优于所有竞争方法。对高分辨率视觉问答(HRVQA)的评估进一步证实了SAAM和PFCM在处理不同RS场景时的有效性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号