结合正向激励的视觉适应机制与逻辑推理的遥感图像分割方法
《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》:Referring Remote Sensing Image Segmentation with Positive-Incentive Visual Adaptation and Logical Reasoning
【字体:
大
中
小
】
时间:2026年06月08日
来源:IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing 5.4
编辑推荐:
摘要:参考遥感图像分割(RRSIS)旨在根据自然语言描述对航空图像中的目标区域进行分割。尽管近年来视觉-语言基础模型取得了进展,但由于领域差异显著、背景复杂以及空间布局复杂,将其应用于RRSIS仍然具有挑战性。现有方法主要存在两个局限性:一是由于自然图像训练偏差导致的跨模态对齐
摘要:
参考遥感图像分割(RRSIS)旨在根据自然语言描述对航空图像中的目标区域进行分割。尽管近年来视觉-语言基础模型取得了进展,但由于领域差异显著、背景复杂以及空间布局复杂,将其应用于RRSIS仍然具有挑战性。现有方法主要存在两个局限性:一是由于自然图像训练偏差导致的跨模态对齐不足;二是处理涉及多个实体和空间约束的复杂表达时推理能力有限。为了解决这些问题,我们提出了一个增强推理能力的RRSIS框架,该框架包含两个面向任务的模块:正向激励跨模态对齐模块(PICAM)和参考逻辑推理模块(RLRM)。PICAM通过引入有益的输入条件噪声到视觉表示中,并利用文本线索作为条件信号,从而缩小了遥感图像与基于自然图像预训练的视觉语言模型之间的差距,提高了多模态特征的鲁棒性和区分度。在增强对齐特征的基础上,RLRM通过将参考表达式分解为目标语义、属性、锚定对象和空间关系,并将推理过程转换为可靠的密集和稀疏提示,将大型模型的推理能力引入到定位阶段,以支持下游的分割任务。基于这两个模块,我们的框架遵循一个明确的解耦范式:对齐、推理引导的定位以及基于提示的掩码生成。这种设计使模型能够在精确划定边界之前解决语义歧义,从而提高可解释性并更好地适应复杂的遥感场景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号