《地理人工智能基础模型及其应用专题》导论，第一部分

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《ACM Transactions on Spatial Algorithms and Systems》：Introduction to the Special Issue on GeoAI Foundation Models and Their Applications, Part I

【字体：大中小】 时间：2026年05月30日 来源：ACM Transactions on Spatial Algorithms and Systems

编辑推荐：

　　摘要人工智能（AI）和多模态感知技术的进步正在推动地理空间科学领域的范式转变，从针对特定任务的地理AI模型转向通用地理空间基础模型（GeoFMs）。虽然这些模型为地球监测、地理知识发现以及应对自然灾害管理等社会挑战提供了前所未有的机会，但在多模态对齐、空间推理、空间分布变

摘要

人工智能（AI）和多模态感知技术的进步正在推动地理空间科学领域的范式转变，从针对特定任务的地理AI模型转向通用地理空间基础模型（GeoFMs）。虽然这些模型为地球监测、地理知识发现以及应对自然灾害管理等社会挑战提供了前所未有的机会，但在多模态对齐、空间推理、空间分布变化和泛化能力方面仍存在挑战。本文介绍了专门探讨GeoFMs及其应用最新进展的特刊的第一部分，内容涵盖了神经符号AI、异构图学习、自监督学习、空间检索增强生成、系统综述以及城市表示学习中的加性组合性等方面的研究。这些研究共同为下一代地理空间智能的发展提供了新的见解。

1 引言

人工智能、硬件加速器和数据处理架构的进步持续推动着地理空间信息系统和科学的发展[16], 为许多社会挑战提供了有效的解决方案。基础模型设计的最新突破使得从大量复杂的多模态数据（包括文本、图像、音频和视频）中学习成为可能[1]。与此同时，多模态感知技术的快速创新使得地理空间数据的收集分辨率和吞吐量不断提高，从而能够以前所未有的细节水平监测、绘制和分析地球表面的各种事件/现象[8, 15]。结合地理空间人工智能（GeoAI）方法和技术[5, 22],这些发展为地球系统的监测、分析和地理知识发现带来了突破性进展[9],有助于实现可持续发展目标，并影响人道主义测绘、自然灾害处理、智能交通系统、城市扩张分析、健康数据分析和流行病学研究、气候变化研究等领域的决策[3, 5]。

最近，地理空间基础模型（GeoFMs）得到了快速发展，这标志着从为单一任务构建专用GeoAI模型向通过自监督学习（SSL）在多样化地球观测和地理空间数据集上预训练的通用模型转变[10, 17],例如Prithvi[20], AlphaEarth[2], 和SatCLIP[12]。这些具有数百万参数的先进GeoFMs能够构建卫星图像嵌入以及时间和位置嵌入，并在各种地理空间下游任务中表现出色[13]。然而，仍存在一些挑战，如高质量多模态地理空间数据的融合用于训练GeoFMs、计算效率、理解拓扑空间关系[11}、地理保真度、可解释性和偏见[17、空间分布变化和泛化能力[23],以及隐私和安全问题[19。

本特刊汇集了旨在推进GeoFMs及其应用最新进展的研究成果。我们通过公开征稿邀请原创研究文章，以加深对GeoAI基础模型的理解，包括对新兴GeoFM工作的全面回顾、与模型设计、训练和评估相关的方法学发展，以及利用地理空间数据和基础模型的创新应用，包括大型语言模型（LLMs）和视觉语言模型（VLMs）。

特刊第一卷收录的文章概述

第一篇文章题为“基于神经符号推理的遥感文本到图像检索”，作者为Mezzi等人[18], 提出了一种新颖的方法：RUNE（使用神经符号实体进行推理），该方法结合了LLMs和神经符号AI来解决基于大型视觉语言模型（LVLMs）的文本到图像检索中的推理和可解释性挑战。在基准数据集上的实验表明，RUNE在准确性、计算效率和查询复杂性适应性方面优于其他基线LVLMs。

第二篇文章题为“HeteroRoadNet：一种基于异构图的房价预测神经网络方法”，作者为Guo和vanden Broucke[7], 提出了一种基于异构图神经网络的学习框架HeteroRoadNet，用于解决空间依赖性和数据异质性的挑战。作者构建了异构图，以整合不同类型的地理空间数据（如道路网络、兴趣点（POI）、表格实例），适用于各种地理空间推理任务。在六个不同国家的城市进行的房屋价格预测实验表明，HeteroRoadNet的性能优于传统的空间统计和机器学习方法，以及同构图深度学习方法。

第三篇文章题为“S2Vec：用于建成环境的自监督地理空间嵌入”，作者为Choudhury等人[4], 提出了一种自监督框架S2Vec，用于使用Google的S2几何方案学习建成环境的通用地理空间表示（嵌入）（例如POI和道路网络特征）。在五个具有代表性的地理空间预测任务上的实验表明，S2Vec与基于地理参考的图像嵌入（如SatCLIP和GeoCLIP）相比具有竞争力，并且在未见过的测试区域上的零短地理适应任务中表现更好。此外，S2Vec与基于图像的嵌入的多模态融合进一步提高了下游任务的性能。

第四篇文章题为“遥感基础模型的系统综述”，作者为Lane和Karimzadeh[14], 对从不同SSL框架学习的现有RS嵌入进行了综述：（1）通过负采样进行对比学习，（2）通过蒸馏进行对比学习，（3）通过冗余减少进行对比学习，以及（4）掩码图像建模，以及它们与特定学习架构的优缺点。作者还强调了RS数据特征（空间和光谱多样性、方向性和波长意识）对RS表示学习的重要性，并概述了RS基础模型的未来研究方向。

第五篇文章题为“使用检索增强生成的空间推理”，作者为Georgiadis等人[6], 提出了一种基于图的检索增强生成（RAG）框架SpaRAGraph，用于丰富LLM的空间问答上下文。SpaRAGraph执行空间到RDF数据索引和处理，以检索地理实体的空间关系，从而提高LLM在方向性和拓扑空间关系查询上的性能。作者还基于美国行政和邮政区域实体（如州、县、邮政编码）构建了一个空间推理基准数据集。在这些真实世界空间实体上的二元、多类和多标签分类任务实验表明，使用SpaRAGraph丰富上下文后，不同LLM（如Llama-3.1-8B、Mistral-7B、Qwen2.5-7B）的性能得到了提升。

第六篇文章题为“基于人类移动模式的城区嵌入的加性组合性”，作者为Tamura等人[21], 将语言学中的加性组合性概念引入到城区表示学习中，并提出了一种基于此概念和人类移动数据聚合预训练区域嵌入的方法，使得区域表示能够在不同地理尺度上进行空间转换。使用日本两个城市（大阪和名古屋）的真实世界用户GPS轨迹数据的实验表明，所提出的加权方法在POI多标签预测和揭示城市移动模式的时间变化方面表现更好。

这是特刊的第一部分；第二部分将于今年晚些时候发布。我们希望读者会发现本特刊中的文章有趣。感谢所有向本特刊提交文章的作者、帮助挑选这些有趣文章的客座编辑，以及提供高质量审稿意见的审稿人，这些审稿意见提高了被接受文章的质量。最后，我们希望这组文章能够促进地理空间AI基础模型这一激动人心领域的进一步研究，特别是在空间算法和系统方面的创新。

联系信箱：

粤ICP备09063491号

摘要

1 引言

特刊第一卷收录的文章概述

热点排行