桥接语义与几何:一种解耦的LVLM–SAM框架,用于光学遥感中的推理分割
《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》:Bridging semantics and geometry: A decoupled LVLM–SAM framework for reasoning segmentation in optical remote sensing
【字体:
大
中
小
】
时间:2026年04月28日
来源:ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING 12.2
编辑推荐:
徐张|葛俊尧|杨铮|郭凯泰|梁继民
西安电子科技大学电子工程学院,陕西西安,710071,中国
**摘要**
大型视觉-语言模型(LVLMs)在推进光学遥感(RS)分析方面具有巨大潜力,但现有的推理分割框架通过端到端的监督微调将语言推理与像素预测结合在一起,导致几何
徐张|葛俊尧|杨铮|郭凯泰|梁继民
西安电子科技大学电子工程学院,陕西西安,710071,中国
**摘要**
大型视觉-语言模型(LVLMs)在推进光学遥感(RS)分析方面具有巨大潜力,但现有的推理分割框架通过端到端的监督微调将语言推理与像素预测结合在一起,导致几何基础薄弱和跨任务泛化能力有限。为了解决这个问题,我们开发了Think2Seg-RS,这是一个解耦的框架,它训练LVLM提示器通过结构化的几何提示来控制一个冻结的“Segment Anything Model”(SAM)。通过仅基于最终掩码IoU的Group Relative Policy Optimization(GRPO)强化学习目标,LVLM学会了将抽象的语义推理转化为具有空间基础的动作,在EarthReason数据集上取得了最先进的性能。值得注意的是,Think2Seg-RS在EarthReason数据集上的表现优于领先的方法,如RemoteReasoner和SegEarth-R1,其测试cIoU达到了75.60%,gIoU达到了73.36%,分别比最强的基线提高了6.47%和2.40%。在三个参考分割基准测试中的零样本评估揭示了任务归纳偏见的基本差异,暴露了语义级基础(聚合所有与概念意图匹配的区域)与需要离散对象分割的实例级任务之间的明显区别。我们进一步发现,在语义级监督下,紧凑的分割器比大型分割器表现更好,因为它们能够减轻文本过度分割的问题;而在异构的航空背景下,无约束的负面提示是不稳定的。这些发现共同表明,通过直接的分割反馈优化LVLMs为复杂的地理空间推理提供了一个可扩展的框架,有效地弥合了抽象语言理解和精确像素级执行之间的差距。我们的代码和模型可在https://github.com/Ricardo-XZ/Think2Seg-RS获取。
**引言**
遥感(RS)图像的分割长期以来一直被认为是智能图像解释的基石。多年来,分割技术已经从为每个像素分配固定类别标签的语义分割(Yuan等人,2021年;Lv等人,2023年;Guo等人,2019年;Ma等人,2024年)发展到进一步区分同一类别中单个对象的任务(K. Chen等人,2024年;Xu等人,2021年;Y. Liu等人,2024年;Su等人,2020年),图1提供了示例。尽管这些方法取得了显著进展,但现有范式仍然受到预定义标签集的固有限制,因此难以应对用户需求无法完全预测的开放世界环境。
为了克服这种刚性,引入了参考表达式分割(Yuan等人,2024年),相关研究涵盖了专门的基准测试(S. Liu等人,2024年;Dong等人,2024年;Yao等人,2025a)和跨模态对齐架构(Lei等人,2025年;Pan等人,2024年)。从形式上讲,这项任务侧重于显式的视觉划分,用户查询通过可观察的属性(如类别名称、颜色或空间关系)直接指定目标(例如,“左上角的红色小车辆”,见图1)。然而,现实世界的查询往往是隐式的和组合性的,这就需要推理分割这一新兴范式(K. Li等人,2025年;Yao等人,2025b)。这项任务定义为根据隐式查询来划分目标,其中识别需要涉及空间上下文、因果关系或领域知识的复杂推理。例如,解决“识别最适合举办跨栏比赛的体育区域”这样的查询需要模型能够(i)解释隐式的自然语言指令,(ii)推理空间逻辑和领域语义,以及(iii)提供精确的像素级划分。从显式参考到隐式推理的这一进展代表了RS分割方法的最新阶段。
尽管大型视觉-语言模型(LVLMs)在自然图像上的指令遵循和多模态推理方面表现出色,但直接将它们应用于RS仍然远远不够。在训练数据和目标方面,主流的LVLMs(例如LLaVA-1.5(Liu等人,2023年)、InternVL3(Zhu等人,2025年)和Qwen-2.5-VL(Bai等人,2025年)主要是为图像-文本指令遵循、视觉问答、文档理解和带有框的定位而优化的,而不是为密集的、像素级精确的分割掩码优化的。这种不匹配导致了领域差距(例如,天底视图、微小对象、重复纹理以及与当前LVLM训练语料库中的自然图像明显不同的地理语义)和任务差距(例如,从字幕/问答或框级定位到细粒度掩码划分)。即使LVLM正确解析了隐式查询,将其推理转换为可靠的、细粒度的掩码也并非易事,因为当前的LVLM头部和训练信号并未针对精确的空间划分进行定制。此外,早期将压缩的LVLM嵌入直接映射到带有单一解码器的掩码的RS推理-分割流程(K. Li等人,2025年)存在内在的信息瓶颈。具体来说,尝试将高频视觉细节编码为紧凑的语义嵌入(例如,单个令牌)不可避免地会导致精确RS对象划分所需的细粒度空间保真度的损失,而僵化的单一设计限制了架构的可扩展性,不透明的隐式解码过程也限制了可解释性。
为了解决这些挑战,我们采用了一种解耦的推理-执行范式,明确地将推理与分割分开。在这种设计中,LVLM作为推理模块,解释复杂或隐式的指令并生成结构化的几何提示(边界框和点),而通用分割器作为执行模块将提示转换为掩码。关键的是,通过显式的几何坐标而不是压缩的潜在向量传输推理结果,这种设计绕过了信息瓶颈,使分割器能够利用其高保真的内部特征进行精确的像素级划分。Segment Anything Models(SAMs)(Kirillov等人,2023年;Ravi等人,2024年)特别适合这一角色,因为它们具有强大的零样本泛化能力和可提示的接口;它们的RS变体已经显示出强大的性能(S. Ren等人,2024年;Wang等人,2023年;Zheng等人,2024年)。
因此,RS的实际瓶颈不在于SAM本身的分割能力,而在于如何生成合适的提示,以将高级推理与低级执行联系起来。具体来说,这涉及(i)语义基础——将隐式的、组合性的查询映射到正确的实例子集及其空间范围;(ii)空间精度和实例控制——决定在哪里以及如何发布提示(例如,框和点),以便SAM在尺度变化、杂乱和边界模糊的情况下仍能生成准确的掩码。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号