《Environmental Modelling & Software》:MiniGeoSolver: Enhancing small language models for autonomous geospatial tool sequences generation through progressive strategy
编辑推荐:
地理空间任务中工具序列生成效率低,本文提出MiniGeoSolver渐进式训练策略,将复杂任务分解为工具框架构建和详细工作流生成两阶段,通过低秩适配优化Gemma-2-2B模型,在多工具地理分析任务中较GPT-4提升22.7%,较Gemini 1.5 Pro提升17.2%,且较传统方法提升9.5%准确率。
Jingxuan Li|Yifan Zhang|Wenhao Yu
中国地质大学地理与信息工程学院,武汉,中国
摘要
使用工具序列来解决地理空间任务是一个挑战。虽然大型语言模型(LLMs)在生成这些序列方面表现出色,但它们的计算成本限制了其应用范围。小型语言模型(SLMs)提供了一个替代方案。传统的方法直接训练SLMs来生成工具序列,但由于推理路径复杂和负载过重,往往失败。因此,我们提出了MiniGeoSolver,这是一种旨在增强SLMs的渐进式训练策略。为了建立清晰的推理路径,MiniGeoSolver将复杂的序列生成过程分为两个阶段。首先,它构建一个符号框架来确定所需的工具。然后,它将详细的执行与该框架对齐,以生成准确的工作流程。我们使用分割的数据集对Gemma-2-2B进行微调,并使用评估数据集来评估任务解决能力。结果表明,我们的模型比GPT-4高出22.7%,比Gemini 1.5 Pro高出17.2%。此外,我们的渐进式策略比没有渐进式设计的模型实现了9.5%的更高准确率。
引言
渐进式策略是一种通过系统分解和分阶段执行来解决复杂计算问题的基本方法(Johnson和Benson,1984;Huang等人,1995;Yao和Luo,2011)。这种方法基于分而治之的原则和认知学习理论,解决了在受限计算框架内管理多个相互依赖要求的固有挑战(Dietterich,2000;Fekete和Primet,2016)。渐进式策略通过将复杂任务划分为顺序阶段来运作,每个阶段都旨在建立特定的能力,同时减少任何给定处理点的认知负担(Sweller,1993;Paas和van Gog,2009)。这种结构化的方法使模型能够逐步发展专业能力,在进入更复杂的应用之前建立基础技能。在GIS领域,渐进式策略在自动化复杂的地理空间任务解决方面具有特殊优势。地理空间分析本质上涉及多个顺序操作,每个步骤都建立在前一个输出的基础上,以实现复杂的分析目标(Michael等人,2009;Albert,2012;Palomino等人,2017)。早期解决地理空间任务的方法侧重于基于规则的系统和专家系统,试图通过显式编程地理空间推理规则来编码领域知识(Robinson等人,1986)。虽然这些系统提供了确定性的输出,但它们灵活性有限,并且每个新的应用领域都需要大量的手动知识工程。基于规则的方法的刚性使它们特别不适合处理现代地理空间任务的多样化和演变要求。地理空间操作的相互依赖性,加上地理空间工具的多样化参数要求,造成了巨大的复杂性,这对传统的自动化方法构成了挑战(Medeiros等人,1996;Yuan等人,2019)。渐进式策略通过使模型首先理解任务的地理空间逻辑,然后再尝试生成详细的工作流程,从而解决了这些挑战。这种分阶段的方法允许更好地处理地理空间关系,更准确的选择工具,以及改进的参数指定。然而,如何使用渐进式策略自主解决地理空间任务成为一个新的问题。
大型语言模型(LLMs)的兴起正在以前所未有的深度和广度重塑各种专业领域。从软件工程到生物医学,使LLMs能够与外部工具交互以执行复杂任务是实现通用人工智能的关键步骤(Jin等人,2024;Wang等人,2024)。在GIS领域,该领域严重依赖数据和工具,将语言模型的自然语言理解能力与地理空间工具的精确分析功能结合起来具有巨大的潜力(Yifan Zhang等人,2024)。它可以自动化复杂的工作流程,降低专业软件的进入门槛,使非专家用户能够执行高级空间分析和解决地理空间任务(Wei等人,2025)。然而,将LLMs的潜力转化为实际应用面临重大挑战(Meihui Zhang等人,2024)。一方面,像GPT-4和Gemini这样的先进模型通常是闭源的,API调用的高成本和推理延迟限制了它们在需要快速响应或大规模部署的学术研究和商业应用中的使用(Manchanda等人,2024)。另一方面,像Llama和Mistral这样的大型开源语言模型需要较高的部署要求(Aryan等人,2023)。这推动了研究朝着更小、更高效和可本地部署的开源SLMs发展,例如Gemma和Phi。然而,由于它们的参数规模较小,SLMs在处理需要多步骤逻辑和精确参数传递的复杂任务时具有相对较弱的固有规划和推理能力(Ranaldi和Freitas,2024;Srivastava等人,2025)。例如,SLMs需要从零开始生成涉及多个地理空间工具的复杂工作流程,比如选择一个学校场地,这需要三个不同的工具和五步过程来解决(图1)。此外,早期的输出经常成为后续步骤的输入,从而创建一个工具序列。这类似于期望新手立即掌握一项复杂技能,这对模型提出了重大的认知和计算要求,通常会导致规划错误、工具调用失败或无意义的结果。
为了解决这个问题,我们提出了MiniGeoSolver,这是一种旨在显著增强SLMs自主生成地理空间工具序列能力的渐进式训练策略。我们的方法将复杂的一步工具序列生成任务分解为两个连续的阶段,降低了认知负担并使学习曲线更简单。这种方法模仿了人类的学习过程,首先掌握每个工具的基本功能,然后学习如何组合它们来解决问题。它通过使规划阶段明确化,提高了SLMs推理的可解释性,从而通过允许SLMs将其有限的容量集中在更受限制的子任务上来提高最终准确性。具体来说,渐进式策略首先训练SLMs掌握单个地理空间工具的基本理解和应用,然后进一步训练它们规划和执行工具序列。实验结果表明,这种顺序学习范式更有效地利用了SLMs有限的参数容量,使它们能够逐步建立复杂的推理路径。此外,我们将指令调优数据集分为两个部分,对应于我们渐进式策略的两个阶段。
- •
MiniGeo-Explore。用于训练SLMs的基础探索能力,使其能够分析用户意图,并识别和规划解决给定任务所需的工具框架。
- •
MiniGeo-Workflow。基于第一阶段的输出。该组件训练SLMs生成详细、完整和准确的工具序列。
我们使用Gemma-2-2B作为基础模型,并使用轻量级的Low-Rank Adaptation(LoRA)方法(Team等人,2024;Hu等人,2022)对其进行高效微调。此外,我们编译了一个数据集作为评估语言模型工具准确性的基准。与指令调优数据不同,这个数据集由GIS专业人士标记。实验结果表明,使用我们的策略训练的模型在解决复杂地理空间任务时显著优于其原始版本和其他类似规模的开源模型(例如Phi-3-mini)。此外,我们的模型在面对比训练数据更复杂的任务以及使用未见过的外部工具时,表现出强大的泛化和迁移学习能力。
我们的主要贡献如下。
- •
面对SLMs在复杂推理方面的固有限制,我们提出了渐进式策略。该策略将生成工具序列的复杂任务分解为两个阶段:探索-规划和工作流程生成。这有效地减轻了SLMs的认知负担,使其能够逐步学习和掌握多步骤地理空间任务的解决方案。此外,对于渐进式训练策略,我们将开源指令调优数据集分为两个部分:MiniGeo-Explore和MiniGeo-Workflow。
- •
我们使用我们的策略对Gemma-2-2B模型进行微调。实验结果表明,MiniGeoSolver具有显著的优势。我们的模型在多个评估基准测试中的表现显著优于类似规模的模型。在许多情况下,其性能可与领先的商业模型(如GPT-4)相媲美甚至超越。
相关工作
相关工作
语言模型(LMs)在各种基于文本的任务中表现出显著的熟练程度,展示了强大的语言理解能力(Hao等人,2023)。当前的研究正在超越传统的自然语言处理(NLP),探索将LMs与不同领域集成,包括推荐系统(Gao等人,2023)、图像生成(Zhang等人,2023)、位置描述提取(Hu等人,2023;Mai等人,2022)以及智能系统的开发指令调优数据
指令调优对于使SLMs的输出与人类对话模式或专家话语对齐至关重要(Shengyu等人,2023)。大量研究证实了调优在提高SLMs在多个领域的响应性能方面的好处,包括法律(Yue等人,2024)、健康(Lin等人,2025)和GIS(Yifan Zhang等人,2024)。在地理空间应用中,已经开发了一个地理空间工具使用指令调优数据集,专注于解决各种问题的工具使用评估
本节概述了评估方法,包括基线(第4.1节)和实验结果(第4.2节)。第4.3节讨论了增量策略和训练数据规模的影响的消融研究。此外,在第4.4节中,我们研究了渐进式训练中阶段转换期间工具选择的连续性。第4.5节通过使用MiniGeoSolver的案例研究展示了地理空间任务解决过程。
讨论
在本文中,我们提出了MiniGeoSolver,这是一个采用渐进式训练策略的框架,为SLMs建立了明确的推理路径。用户可以用自然语言表达复杂的地理空间分析要求,而我们的模型会自动将这些任务分解为一个符号框架,并将详细的执行与之对齐以生成相应的工具序列。这种策略大大降低了地理空间分析的技术障碍,使非专家用户能够
结论
本文提出了MiniGeoSolver,这是一种用于增强SLMs在地理空间工具序列生成能力的渐进式训练策略。为了解决SLMs在复杂推理任务中的固有限制,我们将工具序列生成过程分解为两个顺序阶段:探索规划和任务流程生成。在第一阶段,我们训练模型生成一个高级战略计划,以应对地理空间任务,这相对直接
CRediT作者贡献声明
Jingxuan Li:撰写——原始草稿,验证,软件,方法论,调查,形式分析,数据管理,概念化。Yifan Zhang:撰写——审阅与编辑,监督,软件,项目管理,方法论,调查,资金获取,数据管理,概念化。Wenhao Yu:撰写——审阅与编辑,监督,项目管理,资金获取,形式分析,概念化。
利益冲突声明
作者声明他们没有已知的竞争财务利益或个人关系可能影响本文报告的工作。