Geo-R1：通过强化微调提升少样本地理空间引用表达的理解能力

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》：Geo-R1: Improving few-shot geospatial referring expression understanding with reinforcement fine-tuning

【字体：大中小】 时间：2026年04月23日 来源：ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING 12.2

编辑推荐：

　　本文提出Geo-R1，一种基于强化学习的遥感指称理解框架，通过生成可解释推理链优化少数样本学习，显著优于监督微调方法，并展现跨数据集泛化优势。

张子伦|关子安|赵天成|沈浩展|蔡旭翔|苏中根|尚永恒|刘兆军|尹建伟|李翔

中国杭州，浙江大学计算机科学与技术学院

摘要

在遥感领域，理解指称表达式面临独特挑战，因为这需要推理复杂的对象-上下文关系。尽管在多模态大型语言模型（MLLMs）上进行的有监督微调（SFT）能够利用大量标注数据集获得优异性能，但在数据稀缺的情况下，这些模型仍难以泛化。为了解决这一问题，我们提出了Geo-R1，这是一种以推理为中心的强化微调（RFT）方法，用于少样本地理空间指称任务。Geo-R1可以生成明确的、可解释的推理链来分解指称表达式，并利用这些推理逻辑来定位目标对象，从而提供良好的可解释性。我们在三个精心设计的少样本地理空间指称基准测试中对Geo-R1进行了验证，结果表明我们的模型在性能上显著优于SFT基线模型。此外，该模型还展现了强大的跨数据集泛化能力，证明了其鲁棒性。代码和数据将在https://github.com/Geo-R1/geo-r1处发布。

引言

视觉语言模型（VLMs）已成为遥感（RS）图像理解的关键工具（X. Li等人，2024年；Weng等人，2025年）。通过将自然语言与RS图像相结合，VLMs可以驱动RS领域的多种任务，如图像标题生成、视觉问答（VQA）、开放词汇检测（OVD）、开放词汇分割（OVS）以及指称表达式理解（REC）和指称表达式分割（RES）（X. Li等人，2024年；Zhou等人，2024a年）。在这些能力中，REC和RES任务尤为重要：它们要求模型将自由形式的语言描述（例如，“一辆小型车辆位于大型车辆的右下角”）转换为高分辨率航拍图像中的具体、空间定位的预测结果（边界框或分割掩码）。因此，我们使用“指称表达式理解”（REU）这一术语来表示一个统一的框架，涵盖REC和RES任务，其目标是将图像和文本查询作为输入，输出一个或多个目标对象。

尽管最近的研究（Kuckreja等人，2024年；Yuan等人，2024年；Zhou等人，2024b年）通过有监督微调（SFT）在REU任务上取得了显著进展，但这些方法高度依赖于大规模训练标签。高质量的REU监督不仅需要图像级标签，还需要在对象和区域级别上进行精确的语言-区域对齐。在遥感图像中创建这样的关联需要专业知识和精细的工具：注释者必须解析复杂的场景布局，消除视觉上相似的人造结构的歧义，并在绘制空间精确的边界框或掩码之前编写明确的指称表达式。与图像级标签相比，这些细粒度注释的工作量要大得多。例如，VRSBench（X. Li等人，2024年）仅标签验证就花费了1004个人工小时。

这种现实情况使得在REU中使用少样本学习（例如，每个类别仅提供10个样本）变得非常有价值。之前的研究，如RS-CLIP（Li等人，2023年）和RemoteCLIP（F. Liu等人，2024年）已经证明，在少量样本上对CLIP（Radford等人，2021年）进行微调可以产生强大的场景分类结果。然而，这些进展不能直接应用于REU，因为区域级对齐比场景级分类更困难。此外，REU中的对象关系非常复杂，需要关系推理和视觉上相似结构之间的消歧。这就提出了一个问题：仅凭每个类别的少量对齐样本，VLM能否学会在遥感图像中准确地进行语言对齐？

受到OpenAI o1（OpenAI，2024b）和DeepSeek-R1（Guo等人，2025）出色推理能力的启发，强化学习（RL）已成为增强大型语言模型（LLMs）推理能力的强大训练后方法。RL明确鼓励中间“思考”步骤，并迫使模型在做出预测之前进行推理。这种以推理为先的行为特别适合于少样本REU：推理步骤（例如，“我的直觉告诉我，道路附近圆形开口处的车辆是小型车辆”）可以作为可迁移的经验，在不同的文本-图像样本之间更好地泛化。此外，传统的基于SFT的多模态LLMs（MLLMs）学习方法本质上不支持坐标回归（Jiang等人，2025年），而基于RL的框架直接优化了与任务相关的、具有几何意识的奖励（例如，边界框AP、掩码级gIoU），使模型能够学习通过SFT单独难以获得的空间定位行为。

在这项工作中，我们引入了一种以推理为中心的RL训练后方法Geo-R1，该方法利用任务特定的奖励函数来解决少样本REU问题。Geo-R1鼓励模型生成明确的推理——解析指称表达式的中间假设，识别上下文锚点，并迭代优化定位——从而规范学习过程并提高泛化能力。与依赖于单一教师强制轨迹和可微分替代损失的SFT不同，Geo-R1探索了多个推理链和提案，通过

N

种比较来提供更密集、更丰富的每个样本的监督，从而更好地利用少样本数据。此外，对于RES任务，Geo-R1直接通过非可微分的“BBox + SAM”流程（Ravi等人，2025年）优化了与任务对齐的MaskGIoU奖励，实现了端到端的密集预测训练——这是SFT无法实现的。方法概述见图1。

在我们的实验中，我们观察到RL在遥感图像的少样本REU任务中相对于SFT基线有三个一致的优势：（1）在相同数量的标注样本下，基于RFT的推理模型在少样本REU任务上的表现显著优于基于SFT的模型；（2）在跨数据集评估中，基于RFT的模型明显优于SFT模型，表明推理模型具有比非推理模型更强的跨数据集泛化能力；（3）学习到的推理轨迹是有用且合理的，利用了有助于最终定位的空间和语义线索，从而提供了良好的可解释性。

我们进一步建立了三个少样本基准测试，并为REU定义了一个少样本协议。总结如下：

•
据我们所知，我们是第一个在少样本环境下探索航空图像理解中的指称表达式理解（REU）的团队。为了促进严格和可重复的评估，我们创建了VRSBench-FS、EarthReason-FS和NWPU-FS，为遥感中的少样本REU建立了标准化协议。
•
我们定义了与任务对齐的奖励和以推理为中心的RL方法，包括REC的BBoxIoU奖励、OVD的mAP奖励（带有预测长度惩罚）以及RES的MaskGIoU奖励。我们引入了经过RL训练的推理模型（Geo-R1），这些模型为这些任务生成了简洁的地面化理由。
•
在所有三个基准测试中，我们的Geo-R1模型在相同的少样本预算下始终优于SFT模型，并且在数据集之间表现出更强的泛化能力，同时提供了可人工审核的推理轨迹，解释了成功和失败的原因。

章节片段

推理LLMs和VLMs

OpenAI o1（OpenAI，2024b）表明，RL通过从最终结果的反馈中学习来提高LLMs的推理能力。最近，DeepSeek-R1（Guo等人，2025）证明，基于规则的奖励可以与GRPO算法结合使用，以教授LLMs高级推理技能。受到RL在LLMs中成功的启发，研究人员现在将R1框架应用于VLMs。R1-OneVision（Yang等人，2025）为SFT和RL创建了逐步的多模态推理数据集。

任务和方法论

本节详细介绍了将GRPO算法从仅语言任务适应到视觉语言任务的过程。然后，我们介绍了在少样本环境下定义的REU任务，并正式定义了这些任务。最后，我们讨论了如何使用定制的任务特定奖励函数将GRPO应用于这些任务。

实验设置

数据集。与传统的少样本学习方法（例如，Prototypical Networks（Snell等人，2017年）和TFA（Wang等人，2020年）不同，我们不将数据集划分为基础类和新类。相反，我们将所有类别视为新类，并为每个类别提供少量标注样本。我们通过从三个广泛使用的遥感基准测试的训练集中派生出GREC和GRES任务的遵循指令的少样本数据集：VRSBench（X. Li等人，2024年）、NWPU VHR-10（Cheng

讨论

在本节中，我们进行了广泛的实验来验证方法设计。除非另有说明，否则实验是在VRSBench-FS数据集上进行的，使用的是10样本设置和GRPO算法。

结论

在这项工作中，我们定义了一个通用任务——指称表达式理解（REU），旨在从指称表达式中识别对象（无论是检测还是分割）。然后，我们比较了基于RL（GRPO）和基于SFT的训练后方法在RS领域的少样本REC、OVD和GRES任务上的表现。我们的结果显示，经过GRPO训练的模型Geo-R1在这些任务上始终优于标准的SFT调优模型。特别是在样本数量较少的情况下，性能提升尤为明显。

CRediT作者贡献声明

张子伦：写作——审阅与编辑、撰写初稿、验证、软件开发、方法论研究、数据分析、概念化。关子安：写作——审阅与编辑、可视化、验证、软件开发、数据分析、方法论研究、数据分析。赵天成：监督、资源管理、方法论研究。沈浩展：可视化、数据分析。蔡旭翔：验证、资源管理。苏中根：验证、资源管理。尚永恒：写作——审阅与

写作过程中生成式AI和AI辅助技术的声明

在准备这项工作时，作者使用了ChatGPT和Gemini来（i）编辑和润色语法和表达；（ii）使用“DeepResearch”帮助检索和整理相关文献（所有引用均经作者核实）；（iii）为CoT评估提示初始化草稿。使用该工具/服务后，作者根据需要审阅和编辑了内容，并对发表文章的内容负全责。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作得到了中国国家重点研发计划（项目编号：2024YFB3908400）、杭州高新区（滨江）平台的开放竞赛项目（2025JBGS-PT003）以及中国国家重点研发计划（项目编号：2024YFF1400900）的支持。

联系信箱：

粤ICP备09063491号

摘要

引言