利用遥感和大型语言模型监测水库蓄水量

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

利用遥感和大型语言模型监测水库蓄水量

《Journal of Environmental Management》：Monitoring reservoir storage using remote sensing and large language models

【字体：大中小】 时间：2026年03月26日 来源：Journal of Environmental Management 8.4

编辑推荐：

　　本研究提出融合合成孔径雷达（SAR）与基于大型语言模型（LLM）的在线媒体数据挖掘方法，通过Sentinel-1 SAR影像在Google Earth Engine中提取水库水面范围，结合阈值参数和介质滤波优化，建立水库面积与储量的设计关系式，并利用CSE/LLM工具从在线媒体中提取83组定量水库储量的验证数据，验证了SAR参数优化对水库储量估算的可靠性，KGE达0.96-0.98，RMSE为1.5-2.0 hm3，成功应用于克里特岛Aposelemis水库十年储量表重建，为数据稀缺地区水库监测提供新方法。

Ioannis N. Daliakopoulos

希腊地中海大学农业系，赫拉克利翁，71410

摘要

尽管在近距和遥感（RS）技术用于地表水水库监测方面取得了进展，但由于测量站点分布稀少或数据不公开，许多地区仍然缺乏可靠且及时的存储记录，这阻碍了传感器的验证。本文展示了如何利用合成孔径雷达（SAR）生成的水域范围地图，并结合通过大型语言模型（LLMs）从在线媒体信息中提取的定量水库存储数据来进行验证，从而克服这一限制。我们的创新框架在Google Earth Engine中处理Sentinel-1 SAR图像，通过设定后向散射阈值

T

[dB]和中值滤波半径

r

[m]来划分水域。之后，将映射区域转换为存储量

V_{s at}

[hm³，这一转换基于特定的面积-存储关系。此外，还利用自定义搜索引擎（CSE）从公开在线媒体中收集了独立的存储参考时间序列

V_{ef}

[hm³，并通过大型语言模型（GPT-4o-mini）提取定量数据及其相关日期，随后通过人工审核确保数据一致性。通过最大化Kling-Gupta效率（KGE）并最小化均方根误差（RMSE），分别确定了适用于升轨和降轨的SAR参数

T

r

。通过配对比较和考虑时间自相关的块 bootstrap置信区间来评估性能和不确定性。该方法被应用于重建克里特岛最重要的饮用水供应项目Aposelemis大坝的10年存储时间序列，该地区目前正遭受干旱影响。通过CSE/LLM流程共获得了82对独特的日期-存储数据对。在不同轨道配置下，KGE值介于0.96-0.98之间，RMSE介于1.5-2.0 hm³之间，残差分析表明存在一定的偏差，但参数选择和参考数据质量对结果有显著影响。尽管由于SAR阈值选择、媒体报道的异质性以及验证参考数据的局限性，仍存在不确定性，但结果表明，将SAR与LLM辅助、人工引导的验证数据相结合，为数据稀缺地区的水库监测提供了一条可扩展的途径。

引言

全球地表水库的总存储量约为7000–10,000立方千米（Hanasaki等人，2006年；Shin等人，2019年），这是最大的可利用淡水储备之一。这些水库为多种基本服务提供了支持：它们满足了全球约三分之一的净灌溉用水需求和大约15%的总用水需求（Biemans等人，2011年；Siebert和D?ll，2008年），对市政和工业用水做出了重要贡献（Garrett等人，2021年），并在防洪中发挥着关键作用（Zajac等人，2017年）。然而，世界上许多水库仍缺乏可靠和及时的存储测量数据。例如，ICOLD记录了大约62,000座大坝（Moreno-Rodenas等人，2025年），而LakeATLAS（Lehner等人，2022年）仅报告了不到7,000座大坝的储水量。造成这种不一致性的原因包括水文地质复杂性（如喀斯特地貌）、资源匮乏，以及水库管理部门实时运营数据的公开程度有限，特别是在跨界或政治敏感的河流流域（Wolf等人，1999年；Zhang等人，2014年；Zhang和Gao，2020年）。因此，许多水库缺乏用于跟踪长期存储变化所需的独立参考数据。

卫星遥感技术为解决水库监测问题提供了新工具，主要通过三种途径实现：高度计、光学成像和合成孔径雷达（SAR）。雷达和激光高度计（图1a）通过脉冲传播时间直接测量水面高度（An等人，2022年；Chen等人，2022年；Ma等人，2024年），但由于空间分辨率和时间重复限制，它们适用于小型水库。光学传感器（图1b）通过利用水面吸收和反射特性来划分水域范围（Chipman，2019年；Mansaray等人，2021年），但经常受到云层覆盖和光照条件的限制（Schwatke等人，2019年）。相比之下，SAR在微波频段工作，能够检测到开放水域，无论天气或光照条件如何。C波段的SAR在覆盖范围和水陆对比度方面表现最佳，X波段提供更精细的细节但穿透能力较弱（Kourkouli，2023年），而L波段在植被覆盖环境中效果较差（Gujrati等人，2024年；Pham-Duc，2024年）。早期的ERS和ALOS任务（Chen等人，2021年；Zhang等人，2025年）展示了这一能力，但2014年推出的Sentinel-1卫星具有10米分辨率和6-12天的重访周期，确立了SAR作为水库监测的主力工具（Alexakis等人，2019年；Sathianarayanan等人，2023年）。最近，商业星座如ICEYE（Kourkouli，2023年）和Capella（Jensen等人，2022年）扩展了SAR的能力，实现了米级分辨率和亚日重访，尽管由于成本高昂、访问受限以及缺乏长期数据档案，其在水库监测中的应用仍有限。结合SAR与光学或高度计数据的融合方法有望提高准确性和时间一致性（Declaro和Kanae，2024年；Druce等人，2021年）。

尽管最近提出了基于机器学习的遥感方法用于水库监测（Gacu等人，2025年），但这些方法仍严重依赖于训练数据和地面真实值。一个有前景的方向是将基于卫星的产品与非常规信息流融合。地球观测社区已经采用数据融合策略来克服观测空白，整合多种传感器和外部数据源以改善覆盖范围并解决歧义（Barbedo，2022年），并加强监测和决策（Karagiannopoulou等人，2022年）。近年来，人们对环境监测中的非常规数据流越来越感兴趣，包括在线媒体和社交平台。例如，报纸档案被广泛用于重建洪水和干旱的影响（Fu等人，2025年；Kong等人，2025a；López-Otal等人，2025年）。虽然这些研究展示了新闻档案的价值，但通常受到人工努力的限制。最近的信息提取方法从基于规则的（López-Otal等人，2025年）到基于AI的自然语言处理（Duarte等人，2023年）不等，用于自动识别数字媒体中的水文极端事件。社交媒体也被探索作为洪水风险管理的实时数据来源，因为有证据表明在洪水事件期间这些平台被大量使用（Annunziato等人，2024年；Smith等人，2017年）。然而，这些信息的准确性和可靠性仍存在疑问，因此大多数应用仅限于对事件或影响的定性描述，而无法提取定量水文变量（如水库存储量）。

大型语言模型（LLMs）的最新突破改变了从非结构化文本中提取结构化信息的能力（Dagdelen等人，2024年；Castro等人，2024年；Domazetoski等人，2025年）。与早期的基于规则或特定任务的NLP方法不同，LLMs可以灵活解析报告，识别、 contextualize甚至推断定量变量，从而将媒体衍生的环境信息与基于卫星的监测相结合。基于这一潜力，本文将基于SAR的水体监测、存储估计和验证与借助LLMs从在线媒体中提取的数据相结合。这样，解决了仅依赖卫星监测的局限性，特别是缺乏独立验证数据、依赖稀缺或特定地点训练数据的基于机器学习的遥感方法，以及基于媒体的水文重建结果仍为定性或劳动密集型的问题。所提出的框架保留了物理透明的基于SAR的映射方法，避免了对特定地点训练数据的依赖，并引入了自动化的LLM辅助流程，从在线媒体中提取定量水库存储信息以进行独立验证。具体来说，本研究评估了少量且不规则提取的媒体报告是否足以约束SAR水检测参数，实现稳定的性能指标，并提供统计上稳健的水库存储时间序列验证。该方法在方法部分有详细描述，应用于克里特岛受干旱影响的Aposelemis水库案例，重建了10年的存储时间序列，并展示了LLMs在数据稀缺地区补充基于卫星监测的潜力。

节选

从SAR图像中划分水库水面

通过Google Earth Engine（GEE）访问并处理了Sentinel-1地面范围检测（GRD）图像，使用了COPERNICUS/S1_GRD数据集，该数据集已预处理了GRD边界噪声、热噪声（截至2018年1月12日）和辐射校准及地形校正（Gulácsi和Kovács，2020年）。分析重点关注垂直传输和接收的后向散射（VV极化）图像，这些图像在Sentinel-1的所有采集中都是一致的，提供了强大且稳定的

Aposelemis大坝

Aposelemis大坝是克里特岛最重要的饮用水供应项目，位于赫拉克利翁东南约25公里的Hersonissos市，其储存的水淹没了历史悠久的Sfendili村庄（图4）。这座高61米的大坝形成了一个正常存储容量约为25.3立方千米、最大存储容量为27.3立方千米、满负荷时表面积约为1.6平方千米的水库（Vogiatzi和Loupasakis，2021年）。该项目始于1959年，

验证数据

人类用户共恢复了45对日期-存储数据对，用于算法的初步测试（Daliakopoulos等人，2025年）。CSE/LLM方法检索到81个候选URL，其中只有33个包含完全有效的日期-存储数据对，经过错误日期解析等小修改后，有18个数据对可用，成功率为63%。其余URL未包含所需信息。只有7个LLM的结果与人类恢复的数据重叠

参考数据和局限性

人类检索和CSE/LLM辅助挖掘的结合显著增加了独立参考数据的可用性。这两种方法之间的有限重叠反映了它们不同的搜索路径（Google，2025年），在这种情况下扩大了时间覆盖范围，具有优势。样本量稳定性分析表明，扩展的参考数据集对于实现稳定的误差和技能指标至关重要，特别是在时间变化较大的情况下

结论

在评估的性能指标中，KGE在识别一致再现存储动态的参数化方面特别有价值。

本研究展示了使用CSE/LLM挖掘的信息作为独立参考数据来验证卫星派生的水库存储量。经过系统提取的媒体报道值提供了一个可用的参考数据集，补充了人类检索结果，并基于Sentinel-1 SAR进行了存储评估。结果显示

写作过程中生成式AI的声明

在准备这项工作时，作者使用了ChatGPT 5.2（OpenAI，CA）来改进手稿语言和注释代码。使用该工具后，作者根据需要审查和编辑了内容，并对出版物的内容负全责。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

这项工作是在“克里特岛适应气候变化的区域支持机制”项目框架下进行的，该项目由绿色基金资助，并由克里特地区协调（优先轴：“自然环境保护 - 气候中立及其他行动”，资助计划“自然环境与气候中立2024”。作者感谢Evangelia Zoe Nathena、Agapi Mitsopetrou和Kyriakos Psillakis的贡献

联系信箱：

粤ICP备09063491号

摘要

引言

节选