利用社交媒体文本和遥感数据评估城市洪水严重程度:以中国河南省为例
《Geomatics, Natural Hazards and Risk》:Estimating urban flood severity using social media text and remote sensing data: a case study of Henan, China
【字体:
大
中
小
】
时间:2026年04月30日
来源:Geomatics, Natural Hazards and Risk 4.5
编辑推荐:
摘要
快速估算城市洪水严重程度(UFS)可以支持城市规划和应急管理中的决策制定。然而,传统方法在分析UFS的社会影响(如受影响人口)方面面临挑战。为了克服这些挑战,本研究提出了一种混合框架,将文本数据与遥感数据相结合来估算UFS。以2021年河南7.20洪水事件为例,收集了社交媒
摘要
快速估算城市洪水严重程度(UFS)可以支持城市规划和应急管理中的决策制定。然而,传统方法在分析UFS的社会影响(如受影响人口)方面面临挑战。为了克服这些挑战,本研究提出了一种混合框架,将文本数据与遥感数据相结合来估算UFS。以2021年河南7.20洪水事件为例,收集了社交媒体文本。构建了一个使用三种算法(包括朴素贝叶斯)的文本分类系统。其次,利用洪水严重程度(LFS)模型来估算UFS。第三,利用遥感数据识别城市洪水影响区域并估算直接经济损失和受影响人口。最后,验证了结果的准确性。研究结果表明:(1)郑州和新乡的UFS极其严重,受影响人口数量最多,其次是财产损失和基础设施损坏。(2)直接经济损失的均方根误差(MRE)为9.67%,均方根误差(RMSE)为102.27;受影响人口的误差(RE)为7.30%。(3)混合框架得出的结果基本一致,相关系数为0.86。本研究有助于在气候变化情景下进行UFS估算、洪水响应和风险管理。
关键词:城市洪水;城市洪水严重程度;社交媒体;文本分类模型;遥感
1. 引言
由于全球气候变化,极端降雨事件的规模和强度显著增加(Lu等人,2025年;Zheng等人,2023年)。当降雨量超过某个阈值时(Ji等人,2024年),很容易导致城市地区发生大规模洪水(Mondal等人,2025年)。这影响了城市生态和经济的可持续发展。近年来,许多城市遭受了严重的城市洪水灾害。著名的例子包括2018年的日本洪水(Ohshimo等人,2018年)、2021年的河南7.20洪水(Lu等人,2025年;Zhu等人,2025年)以及2025年的德克萨斯洪水。特别是自21世纪以来,全球城市洪水造成了严重的UFS。因此,开发一个合理且快速的UFS估算框架以支持洪水风险管理和应急决策至关重要。UFS指的是城市洪水事件对经济、社会、环境和基础设施的全面影响。该定义包括物理层面的经济损失,如房屋和建筑物、基础设施及财产的损坏,还包括直接的社会影响,如受影响人口数量和受影响的经济生产活动。UFS可以被视为城市洪水损害的狭义定义,它回答了“城市洪水造成的损害有多严重?”这个问题。图1展示了UFS的概念框架。
图1. UFS的概念框架。
该图的两个面板流程图分别定义了左侧的城市洪水损害和右侧的UFS。面板1(城市洪水损害)包含三个类别:直接经济损失(基础设施损坏、房屋/建筑物损坏、家庭财产损坏等)、间接经济损失(生产中断和削减造成的损失、投资溢价损失等)和非经济损失(生命和健康损失、环境损害、心理健康损害等)。一个大的箭头从面板1指向面板2,表明UFS是城市洪水损害的狭义定义。面板2(UFS的定义)包含两个类别:物理层面的经济损失(房屋/建筑物损坏、基础设施损坏、财产损坏、总直接经济损失)和社会层面的直接影响(受影响的经济生产活动、受影响人口数量等)。双向箭头连接房屋/建筑物损坏与受影响的经济生产活动,以及基础设施损坏与受影响人口数量。在“总直接经济损失”下方,有一个数据来源部分,分为“来自社交媒体数据”和“来自遥感数据”。
2. 研究区域和数据
2.1 研究区域
河南省(经度110°21′–116°39′E,纬度31°23′–36°22′N)位于中国的中部和东部(图2)。该地区总面积为167,000平方公里,人口密度较高。它是中国的重要的交通枢纽和主要粮食生产区。2025年,河南省的GDP为66632.79亿元人民币。河南经常发生城市洪水。例如,1975年的驻马店洪水、1982年的沁阳洪水、2000年的洛河洪水以及2021年的7.20洪水都造成了超过100亿元人民币的损失。2000年至2024年间,城市洪水平均每年造成103.42亿元人民币的直接经济损失,每年平均影响801.39万人(图3a)。城市洪水对河南的经济和生态发展产生了严重影响。
图2. 研究区域。
该图的两个面板地图显示了海拔高度。面板a显示了中国地图,图例标明了海拔高度(单位:米),范围从最低的-268米到最高的8405米。地图包括国家和省级边界,标注了北京和河南的位置。面板b显示了河南省的详细地图,海拔高度范围从23米到2414米。两个面板都包含指向北方的罗盘玫瑰图和以公里为单位的刻度尺。
2.2 数据收集和预处理
以往的UFS估算方法大致可以分为三类。第一类关注洪水过程的演变,并描绘城市洪水的动态变化。这些研究模拟洪水深度和淹没区域,并通过结合各种损失率来估算洪水损害(Schr?ter等人,2018年;Silva等人,2025年;Wang等人,2024b)。第二类使用补充数据或保险索赔数据以及各种模型来估算洪水损害(Salas等人,2023年;Shahi等人,2025年;Zhuang等人,2024年)。第三类包括利用遥感数据评估UFS的研究(Debnath等人,2024年;Duan等人,2024年;Lateef等人,2025年;Nazir等人,2025年;Zheng等人,2023年)。例如,应用遥感技术识别洪水影响区域(Dixit和Chawla,2026年;Wan等人,2025年;Xue等人,2025年)并估算城市洪水损害(Arrighi和Campo,2019年;Wang等人,2024b)。遥感技术还可以用于评估基础设施损坏(Qin等人,2024年;Suresh等人,2024年)和建筑物损坏(Samprogna等人,2025年)。然而,以往的研究主要集中在直接经济损失的定量分析上,对间接和非经济损失的关注相对不足。城市洪水的社会影响(包括受影响人口和受影响的经济生产活动)也是估算UFS不可或缺的维度(Nazir等人,2025年;Qin等人,2024年)。这种强调经济影响而忽视社会影响的倾向使得难以有效整合多阶段、多维度的洪水损害信息,也难以准确反映城市洪水的实际情况。可以看出,以往的UFS研究缺乏一个混合框架。这种框架能够有效分析物理空间信息和社会感知信息。为了解决这些不足,本研究将遥感数据与社交媒体数据相结合。以往的研究已经证明了社交媒体数据的多维能力,包括灾害信息提取、公众意见分析、情感分析以及应急响应需求的识别(Chen等人,2023年;Helmrich等人,2021年;Lu等人,2025年;Tan和Schultz,2021年)。这些研究为城市洪水的社会感知提供了丰富的支持。因此,本研究提出了一个基于遥感数据和社交媒体文本的混合UFS估算框架。首先,使用Scrapy框架爬取关于河南7.20洪水的社交媒体文本。利用GloVe模型和Kruskal算法从与洪水相关的文本中提取关键信息。其次,分别使用朴素贝叶斯(NB)、支持向量机(SVM)和随机森林(RF)算法进行文本分类。更准确的NB算法用于分类洪水损害类别。基于文本数据,利用LFS模型分析了河南的UFS。随后,使用NDWI(归一化差异水指数)-OTSU(最大类间方差法)模型估算洪水影响区域。然后估算直接经济损失和受影响人口。最后,分析了估算结果的准确性。本研究为洪水应急响应和灾后恢复工作提供了宝贵的支持。
主要创新:所提出的混合框架不仅分析了直接经济损失,还分析了UFS的社会影响,如受影响人口和受影响的经济生产活动。该框架结合了社交媒体文本(高时效性和海量数据)和遥感数据(大空间尺度和高像素精度)的优势。本研究有助于在极端气候变化条件下估算UFS。
3. 研究区域和数据
3.1 研究区域
河南省(经度110°21′–116°39′E,纬度31°23′–36°22′N)位于中国的中部和东部(图2)。该地区总面积为167,000平方公里,人口密度较高。它是中国的交通枢纽和主要粮食生产区。2025年,河南省的GDP为66632.79亿元人民币。河南经常发生城市洪水。例如,1975年的驻马店洪水、1982年的沁阳洪水、2000年的洛河洪水以及2021年的7.20洪水都造成了超过100亿元人民币的损失。2000年至2024年间,城市洪水平均每年造成103.42亿元人民币的直接经济损失,平均每年影响801.39万人(图3a)。城市洪水对河南的经济和生态发展产生了严重影响。
图3. 2000年至2024年河南的洪水直接经济损失和受影响人口(a)以及郑州站(站号:50783)的日降雨量。
该图的两个面板图表显示了河南的洪水经济损失和受影响人口,以及日降雨量和温度。面板a是2000年至2024年的柱状图和折线图。横轴显示年份(2000年至2024年)。左纵轴显示直接经济损失(单位:1亿元人民币),范围从0到2500。右纵轴显示受影响人口(单位:万人),范围从0到2500。蓝色条形表示直接经济损失,2003年、2007年、2010年、2016年达到高峰,2021年达到非常高的峰值。带菱形标记的红色虚线表示受影响人口,2002年、2003年、2008年、2010年、2016年达到高峰,2021年达到非常高的峰值。面板b是2000年至2024年的多线图。横轴显示年份(2000年至2024年)。左纵轴显示日降雨量(单位:毫米),范围从0到600。右纵轴显示温度(单位:摄氏度),范围从-10.0到40.0。蓝色条形表示日降雨量,每年都有季节性高峰,2021年达到显著高峰。浅绿色线条表示日平均温度,显示出明显的季节性周期,夏季较高,冬季较低。红色垂直线表示2021年的河南7.20洪水事件,与高降雨量峰值重合。
本研究以2021年的7.20洪水事件为例。该事件的强度、影响范围和损害程度具有典型性和研究价值(Zhang等人,2024年)。多个气象站的日降雨量超过了历史记录(图3b)。这场洪水灾害影响了1478.6万人,造成了1200.6亿元人民币的直接经济损失(Lu等人,2025年)。
3.2 数据收集和预处理
社交媒体文本从新浪微博收集。截至2025年11月,微博的月活跃用户数为5.8亿。它已成为表达公众意见的主要平台,因此该平台上的用户数据通常具有重要的参考价值(Lu等人,2025年)。使用Scrapy框架从微博中提取相关文本。具体来说,结合了关键词“暴雨”、“洪水”和“内涝”以及地理过滤条件(河南、郑州)来爬取与洪水相关的微博推文。数据收集时间为2021年7月10日至8月10日。每条微博数据包括内容、作者、时间和位置(表1)。经过去重(使用Scrapy内置的去重中间件DupeFilter)和过滤后,获得了31,560条有效的文本数据。
表1. 微博推文示例。
下载CSV
文本处理需要进行分词预处理。我们使用了精确的Jieba分词算法进行数据处理(图4)。访问了哈尔滨工业大学提供的停用词列表进行文本过滤。
图4. Jieba分词原理。
该流程图说明了Jieba分词原理。系统词典、自定义词典和待分割的微博文本都指向一个Trie树。Trie树再指向一个匹配决策节点。如果“否”,路径指向中文单词形成的HMM模型,然后是统计分割结果,中间标注了“建模”。如果“是”,路径指向所有可能的分割组合,然后是最优分割组合,中间标注了“动态规划”。统计分割结果和最优分割组合都收敛到了最终分割结果。显示全尺寸。本研究利用多源数据来提高UFS估计的可靠性。数据来源如表2所示。表2. 数据描述和来源。下载CSV。显示表格。遥感数据需要进行预处理,例如投影、重采样、裁剪和像素值校正。数字高程模型(DEM)数据使用地理信息系统(GIS)软件进行处理。具体来说,通过空间叠加操作与矢量/栅格掩膜层保留研究区域内的高程值,而非目标区域被赋予NoData值进行掩蔽。在完成洼地填充预处理后,会推导出地形因素,如高程、坡度和累积流量。这些因素随后作为约束条件纳入洪水模型中,从而为模拟过程定量定义边界并控制参数,实现地形约束。
3. 方法
图5是研究框架。以下小节提供了关于每种方法的更多信息。图5. 研究框架。阅读该图的详细描述。
四步流程图详细说明了城市洪水估计的研究框架。第一步,数据收集和预处理,包括从新浪微博收集与7.20河南洪水事件相关的社交媒体文本,通过网络爬虫进行去重和过滤。来自LAADS DAAC的遥感数据经过重采样和校正。第二步,基于社交媒体文本的UFS估计,首先识别城市洪水事件,进一步分为灾害、损失和响应事件。损失分类使用NB-SVM-RF算法,然后使用词典方法进行分类,形成分类特征词汇表。这可以识别受影响的人口、财产损失、基础设施损失、房屋或建筑物的损失以及受影响的经济生产活动,然后使用LFS模型估计UFS。第三步,基于遥感的UFS估计,涉及使用NDWI-OTSU提取受影响区域,然后使用遥感像素建立UFS模型,并估计直接经济损失和受影响人口。第四步,混合框架的综合分析,包括估计结果的可靠性验证、估计结果的相关性分析以及混合框架的全面分析。显示全尺寸。
3.1. 城市洪水事件识别和损失分类
3.1.1. 城市洪水事件分类系统的构建
与城市洪水相关的文本可能包含关于洪水灾害本身、洪水损失、洪水救援和灾后恢复的各种类型的信息(Lu等人,引用2025年)。然而,本研究重点关注UFS的分类,分为五种类型(Lu等人,引用2025年;Tan和Schultz,引用2021年)。它们分别是受影响的人口、受影响的经济生产活动、房屋/建筑物的损失、财产损失和基础设施损失(图6)。图6. 城市洪水事件分类系统。阅读该图的详细描述。
流程图展示了7.20河南洪水事件的分类过程。核心事件7.20河南洪水事件分为三个子事件:灾害事件、损失事件和响应事件。灾害事件子事件又分为三个具体事件:暴雨、洪水和其他次生灾害。损失事件子事件分为四个具体事件:受影响的人口、受影响的经济生产活动、房屋/建筑物的损失和财产损失。损失事件还进一步分为基础设施损失。响应事件子事件分为三个具体事件:预警响应、救援响应和恢复响应。显示全尺寸。
3.1.2. 城市洪水损失分类
城市洪水损失分类基于社交媒体文本。需要两个过滤步骤来排除无关文本。① 由于位置不确定性,我们将从文本中提取的位置词与上传的位置(IP)标签结合起来建立位置指向关系。随后,我们移除了缺少位置标签或没有位置相关词的数据,即排除了河南省外的微博推文位置。② 排除与UFS无关的文本。
算法的选择主要基于数据规模、任务特征以及先前研究的适用性。本研究分析的社交媒体数据主要是短文本,主要由碎片化的用户生成内容组成。它们的特征维度相对简单。共收集了31,560条文本,构成了一个中小型数据集。其他算法,如深度学习模型(例如BERT),在文本分类任务中表现良好。然而,它们的性能依赖于大规模标记的语料库和高性能计算资源,并且在小样本情况下容易过拟合。相比之下,NB、SVM和RF算法在处理小样本和稀疏文本时表现出良好的泛化能力。此外,这些模型的结构简洁易懂,便于分析分类结果。另外,这三种算法在文本分类领域已经有一定的研究基础(Debnath等人,引用2024年)。通过比较三种算法的性能,选择最准确的模型进行自动分类。
① NB。NB算法以其对样本大小的适应性和处理不确定性的能力而闻名,因此在分类领域得到广泛应用(Saritas和Yasar,引用2019年)。核心公式如下:
(1) P(ci|λ1,λ2,?,?λn)=P(λ1,λ2,?,?λn|ci)/P(λ1,λ2,?,?λn)
(2) P(ci)=Nci/N
(3) Cresult=argmaxP(ci)∏j=1nP(tj|ci)
P(λ1, λ2, ..., λn)是特征词。λ1, λ2, ..., λn是在给定文本语料库{D}中出现的概率。P(ci)是先验概率。Nci是训练样本类别ci的数量。Cresult是预测类别。
② SVM。SVM是一种强大的机器学习算法,常用于分类和回归问题。SVM的原理如图7a所示,实现过程如图7b所示。图7. SVM的原理(a)和步骤(b)。阅读该图的详细描述。
双面板图展示了SVM算法。面板a展示了支持向量机分类的原理。它显示了两个不同的数据点簇:左上角的红色圆圈和右下角的绿色三角形。一条标记为“最优超平面”的实线将这两个簇分开。两条虚线平行于最优超平面,一条在上,一条在下,表示边界。超平面下方有一个方程式,gamma等于2除以omega的范数。面板b展示了SVM算法的步骤流程图。一个标记为“SVM算法”的框引出了四个连续的步骤。第一步是数据预处理:将数据集分为训练集和测试集,并进行特征缩放。第二步是模型构建:选择适当的核函数和惩罚系数来构建SVM模型。第三步是模型训练:使用训练集训练模型并通过最大化间隔找到最优超平面。第四步是预测:使用训练好的模型对测试集进行预测。显示全尺寸。
③ RF。如图8所示,RF使用N棵决策树进行样本的训练和预测。图8. RF的原理。阅读该图的详细描述。
该图展示了一个从初始训练集D开始的过程,用蓝色矩形表示。一个向右的大箭头从这个集合指向一个高而窄的浅蓝色矩形,标记为“随机样本筛选”。从这个筛选框中,有四个平行的向右箭头出现。每个箭头指向一个浅蓝色矩形。第一个标记为D1,第二个为D2,第三个带有省略号,第四个标记为Dn。从每个D矩形中,另一个向右的大箭头指向相应的决策树结构。每个决策树由绿色圆形节点和浅棕色方形叶节点组成,向下分支。每个决策树的右侧有文本标签标识:D1决策树、D2决策树、省略号和Dn决策树。显示全尺寸。
选择了四个常用的指标来评估文本分类的质量:准确率、精确率、召回率和F分数。
(4) 准确率=(TP+TN)/(TP+TN+FP+FN)
(5) 召回率=TP/(TP+FN)
(6) 精确率=TP/(TP+FP)
(7) F分数=(2×召回率×精确率)/(召回率+精确率)
TP(TN)是正确预测的正面(负面)实例的数量。FP(FN)是错误报告的正面(负面)实例的数量。
基于上述31,560条微博推文,我们随机选择了10,000条推文作为后续模型分类训练的基础。训练集占数据的80%,其余20%用于测试模型(Lu等人,引用2025年)。在测试阶段,使用NB、SVM和RF算法进行了预测性能的比较评估。此外,还需要进行交叉验证来评估模型的泛化能力。我们使用MATLAB中的crossval函数实现了k折交叉验证(k=5),并使用baseopt函数进行超参数优化。然后使用最优参数重新训练模型,并在测试集上评估其性能。
结果表明,NB的预测准确率更高,为0.812(表3)。因此,剩余文本使用NB自动分类以过滤掉无效文本。表3. 微博文本的分类结果。下载CSV。显示表格。
3.2. 从城市洪水灾害文本中提取关键信息的方法
本研究使用Kruskal算法、GloVe词向量和Jaccard系数来提取关键文本信息(Wu等人,引用2024年)。具体来说,Kruskal和GloVe算法用于从微博文本中挖掘关键语义。随后,应用Jaccard系数来量化不同单词或文本段之间的语义集相似性,从而提取关于7.20洪水事件的关键信息(Duan等人,引用2024年)。这些算法有助于识别与UFS可能相关的信息,并为后续基于文本的UFS分析提供基础。以下部分简要介绍了这些方法。
3.2.1. Kruskal算法
Kruskal算法在非结构化文本语义的可视化表示方面具有优势(Zheng等人,引用2023年)。Kruskal算法使用迭代边缘选择策略在洪水文本的加权图中找到最优树。主要步骤可以参考Broutin等人(引用2010年)。
3.2.2. GloVe词向量
我们使用GloVe从文本中提取关键词的语义含义。函数如下所示(公式8):
JS=∑a,b=1NF(XabS)(RaS)TRbS?+BaS+BbS?logXabS2
(8)更多详细推导,请参考Cichosz(引用2020年)。
(8)JS=∑a,b=1NF(XabS)(RaS)TRbS?+BaS+BbS?logXabS2
RaS和RbS?分别对应于单词a和b。XabS是共现矩阵。F(X)是权重函数。BaS和BbS分别是RaS和RbS?的偏置项。
3.2.3. Jaccard系数
Jaccard系数常用于比较样本集中的相似性和分散概率(Wu等人,引用2024年)。核心公式如下:
(9) J(?1,?2)=|?1∩?2|/|?1∪?2|
(10) dj(?1,?2)=1?J(?1,?2)
(10)?1∩?2是两个集合中包含的关键词。?1∪?2是两个集合中关键词的总数。dj是Jaccard距离。
3.3. UFS估计模型
我们使用社交媒体文本和遥感数据来估计UFS。对于基于文本的UFS估计,我们主要分析了五类洪水损失分类和LFS级别。首先,使用NB–SVM–RF算法和词典方法将文本分类为五类,包括受影响的人口和财产损失。然后,使用LFS模型估计UFS级别。对于基于遥感数据的UFS估计,使用NDWI–OTSU模型和基于遥感像素的UFS估计模型来分析直接经济损失和受影响人口。
3.3.1. 基于社交媒体文本的UFS估计模型
词典方法被用作文本数据的分类方法(Tan和Schultz,引用2021年)。首先,标记了10,000条微博推文。然后,通过分析这些样本,我们识别了每个类别的特征词汇。构建了相应的类别特定词典(表4)。例如,如果微博文本中出现“交通拥堵”、“旅行延误”或“道路封闭”等关键词,它们可以被归类为“基础设施损失”。最后,使用构建的五类词典对所有文本数据进行分类。表4. 微博文本的分类特征词汇。下载CSV。显示表格。
然后,我们使用LFS模型来估计河南的UFS。
(11) LFSj=∑i=1nuij/∑j=1muij
(11)uij是第j个洪水影响区域内第i个损失类别的文本计数。由于缺乏明确的分类标准,受到先前研究的启发(Chen引用2024年;Xu引用2024年),我们使用20%相对方法将其分为五个级别:极其严重、严重、中等、轻微和轻微影响。
3.3.2. 基于遥感的UFS估计模型
① NDWI模型
NDWI模型用于提取7.20洪水的水体图像(Ashok等人,引用2021年)。
(12) NDWI=(GREEN?NIR)/(GREEN+NIR)
(12)GREEN是绿色波段。NIR是近红外波段。空间分辨率为30米。数据集主要使用两个块:h27v05和h28v05。遥感数据涵盖了7.20洪水事件核心日期(7月20日)之前、期间和之后的时间段。② NDWI-OTSU模型仅使用NDWI模型提取水体可能会导致提取面积较小(Duan等人,引用2024年)。我们创新性地采用了OTSU算法来克服NDWI的局限性。具体步骤如下:首先,使用NDWI模型提取城市洪水水体并进行二值化处理,这样可以避免图像数据中背景噪声的干扰;其次,使用OTSU算法减少城市建筑对水体识别的影响,从而提高识别城市洪水影响区域的准确性。NDWI-OTSU方法的公式如下:(13) S(N)=∑i=0m∑j=0nsuml(NDWIij)sumw(NDWIij){μl(NDWIij)?μw(NDWIij)}2;(14) T=arg[maxS(N),0< />
自1949年新中国成立以来,河南在1963年、1975年、1982年、1996年和2021年多次遭受洪水灾害,其中1975年和2021年的洪水事件被视为千年一遇的灾难。β'是根据1985年河南的财产损失值计算得出的。当时河南进行了一次较为广泛的社会经济调查,涵盖了当时的财产结构,并包括了如果1963年、1975年和1982年的洪水事件发生在1985年的情况下的洪水损失转换值。由于1985年至2021年间价格水平和损失率的变化,需要重新计算β'。根据公式(16) β=δ(1+α)γβ′,转换因子为(1?+?0.04)^(2021?1985+1)?=?4.27(即γ?=?2021???1985?+?1?=?37)。根据1985年新乡每亩749元人民币的损失水平,2021年的估计损失为每平方公里1900万元人民币。结合洪水影响区域,新乡的直接经济损失可计算为58.67亿元人民币(表6)。此外,我们还估算了受影响的人口数量:首先对每个区域内受影响像素对应的数据层进行重采样,然后使用空间分析工具估算受影响人口数量。(18) pi=ρida,其中pi是每个区域的受影响人口数量;ρi是城市洪水影响像素下的人口密度。
4. 结果
4.1 基于社交媒体文本的ufs估算结果
4.1.1 城市洪水灾害文本中关键信息的分析
文本信息提取结果如图9所示。在词云(图9a)中,关于7.20洪水事件的微博讨论主要包含三类信息:首先,公众对此次洪水事件的关注,经常出现的词汇包括暴雨、天气、内涝、洪水、降雨以及与灾害地点相关的词汇,如河南、郑州、焦作和巩义。微博文本中出现频率最高的词汇是“暴雨”,共出现了49,447次(图9b)。其次,关注紧急防洪工作,高频词汇包括消防、紧急情况、防洪、救援和求助。第三,讨论7.20洪水的损失或负面影响,包括老年人、人员、车辆、道路和运营中断等词汇。这些分类结果与第3.1.1节的分类一致。
图9. 关于7.20洪水事件的微博推文文本信息提取结果:词云(a)、前十高频词汇(b)、词汇共线网络(c)和聚类子图(d)。
这个四部分图以2x2网格排列。a部分显示了一个词云,其中“暴雨”、“河南”、“郑州”、“大家”和“消防”等词汇以较大字体显示,表示出现频率较高;b部分展示了一个带有八个辐条的雷达图,标签包括暴雨、河南、互助、郑州、区域、小时、大家和天气;折线图用三角形标记显示频率值,范围从0到60000,其中暴雨和河南的频率最高;c部分呈现了一个词汇共线网络图,节点代表词汇,线条表示连接关系。关键聚类包括紧急情况、预防、响应、工作、被淹没、道路、车辆、救援、传播、物资、联系、方式、影响、人群、安全、帮助、援助、降雨、强烈、降水、天气、气象、预期、对流、洪水、积水、郑州、河南、灾害、暴雨、部分和区域;d部分显示了一个垂直列表,包含九个维度,每个维度都有编号和描述性标签:1. 食品影响维度;2. 灾害预警维度;3. 极端暴雨维度;4. 紧急防洪维度;5. 物资供应维度;6. 安全预防维度;7. 火灾救援维度;8. 损失维度;9. 互助维度。
我们构建了一个关键词共线网络(图9c)以进一步探索关键词与7.20洪水事件之间的内在关系。具体来说,基于glove模型提取了文本关键词,然后使用jaccard相似系数和kruskal算法构建了共线网络。九个主要子图(图9c)被聚类以进行信息交换。每个子图组成的维度反映了公众在社交媒体上关于7.20洪水事件的讨论主题(图9d)。可以看出,共线网络和词云并不完全一致。例如,子图1是洪水影响维度,涉及暴雨、受影响区域和城市洪水的讨论,以及河南和郑州等地点关键词;子图2是灾害预警维度,包括气象部门发布的相关预警和预报信息;子图3是极端暴雨描述维度,涉及此次事件引发的灾害过程,如强对流和强降水;子图4、6、7和9分别是紧急防洪维度、安全预防维度、火灾救援维度和互助维度;子图5是物资供应维度,涉及部分物资捐赠和物资短缺的文本;子图8是洪水损失维度,涉及道路和车辆等受损情况。这也证实了社交媒体文本确实包含一些与ufs相关的信息(tan和schultz,引用2021年)。
4.1.2 基于社交媒体文本的ufs分析
基于nb算法分类的结果进行了手动筛选,以检查可能被错误分类或分类不足的文本。例如,某条微博文本可能对应多个洪水损害类别(表5)。
表5. 微博文本对应的洪水损害类别。
下载csv
经过筛选和处理后,共提取了8664条有效的微博推文,形成了用于估算ufs的数据集。图10显示了不同地区的ufs分类结果,郑州在ufs相关文本数量上排名第一,其次是新乡和鹤壁(图10a);相比之下,三门峡、洛河和驻马店等城市的ufs相关文本较少。图10b显示了郑州各区的ufs情况,巩义在ufs相关文本数量上排名第一,其次是金水区和新乡。从ufs的分类角度来看,受影响人口最多,其次是财产损失和基础设施损失;受影响的经济生产活动数量相对较少。在这些微博内容中,公众更关注7.20洪水灾害期间的求助信息和互助行动,以及房屋倒塌和车辆淹没等即时和紧急的灾害影响。
图10. 7.20洪水事件期间河南(a)和郑州(b)的ufs情况。
这个双面板条形图显示了各城市和地区的ufs相关文本数量。a部分显示了河南各城市的堆叠条形图,横轴列出城市名称:郑州、洛阳、南阳、许昌、周口、新乡、商丘、驻马店、新乡、平顶山、开封、安阳、焦作、濮阳、洛河、三门峡、鹤壁和济源;纵轴标记了ufs相关文本数量,范围从0到6000;图例表示五个类别:受影响人口、受影响的经济生产活动、房屋/建筑物损失、财产损失和基础设施损失。郑州的总数最高,主要由受影响人口构成,其次是新乡和周口;其他城市的数量较低。b部分显示了郑州各区的堆叠条形图,横轴列出地区名称:中原、二七、金水、汇济、冠城、尚杰、巩义、新郑、新密、新乡、邓峰和中牟;纵轴标记了ufs相关文本数量,范围从0到2000;图例与a部分相同。新郑的总数最高,主要由受影响人口构成,其次是金水和中牟。其他地区的数量较低。
图11显示了每个ufs分类的前五个地区。从各个类别来看,郑州、新乡和鹤壁等地区遭受了更严重的ufs(图11a)。这些地区经历了大规模的城市洪水和破坏,影响了大量人员、建筑物和基础设施。此外,图11b显示了郑州的ufs情况,可以看出巩义市、金水区、新阳市和二七区的ufs最为严重。
图11. 河南(a)和郑州(b)各ufs类别的前五个地区。注意:地区排名是从上到下排列的。
这个并排的双面板图显示了各地区的分类情况。左侧面板a显示了四个地区簇,用虚线连接到分类下的四个类别:第一个簇包括郑州、新乡、鹤壁、焦作和开封;第二个簇包括郑州、新乡、新乡、鹤壁和洛阳;第三个簇包括郑州、新乡、周口、鹤壁和上丘;第四个簇包括郑州、新乡、焦作、洛阳和鹤壁。这些簇分别与受影响人口、受影响的经济生产活动、财产损失、房屋/建筑物损失和基础设施损失相关联。右侧面板b也显示了四个地区簇,用虚线连接到分类下的四个相同类别:第一个簇包括巩义、金水、新乡、二七和中牟;第二个簇包括金水、邓峰、二七、中牟和冠城;第三个簇包括金水、新乡、二七、巩义和冠城;第四个簇包括巩义、金水、新乡、二七和邓峰。这些簇分别与受影响人口、受影响的经济生产活动、财产损失、房屋/建筑物损失和基础设施损失相关联。
图12显示了lfs模型的空间分布结果。郑州、新乡和鹤壁的ufs非常严重,洛阳、南阳、安阳和焦作的ufs较为严重(图12a);对于郑州(图12b),受影响最严重的城市是巩义和新密;受影响较严重的地区是二七和冠城;中度受影响的地区是金水、新乡和中牟。
图12. 河南(a)和郑州(b)的ufs等级。
这个双面板地图显示了ufs等级。a部分显示了标注了各个城市的河南省地图;ufs等级图例表示弱、轻微、中度、严重和极端严重四个等级;b部分显示了标注了各区的郑州市更详细的地图,其ufs等级图例与a部分相同,也表示弱、轻微、中度、严重和极端严重四个等级。 基于遥感像素构建ufs模型根据以往研究(wu等人,引用2023年)优化了估计模型的参数配置。基于遥感像素的ufs模型公式为:(15) ld=βDa+CP;(16) β=δ(1+α)γβ′;(17) da=∑i=1nfiRi。β是根据遥感数据和GDP计算出的单位面积直接经济损失;Da是城市洪水影响区域;fi是遥感图像中的第i个像素;Ri是使用遥感分辨率计算出的像素面积;δ是使用遥感亮度值拟合的转换系数;α是经验系数,通常取0.04(Zheng等人,引用2023年);γ是根据历史年数设定的幂值;β'是相同洪水级别下历史年的单位面积损失。 自1949年新中国成立以来,河南在1963年、1975年、1982年、1996年和2021年多次遭受洪水灾害,其中1975年和2021年的洪水事件被视为千年一遇的灾难。β'是根据1985年河南的财产损失值计算得出的。当时河南进行了一次较为广泛的社会经济调查,涵盖了当时的财产结构,并包括了如果1963年、1975年和1982年的洪水事件发生在1985年的情况下的洪水损失转换值。由于1985年至2021年间价格水平和损失率的变化,需要重新计算β'。根据公式(16) β=δ(1+α)γβ′,转换因子为(1?+?0.04)^(2021?1985+1)?=?4.27(即γ?=?2021???1985?+?1?=?37)。根据1985年新乡每亩749元人民币的损失水平,2021年的估计损失为每平方公里1900万元人民币。结合洪水影响区域,新乡的直接经济损失可计算为58.67亿元人民币(表6)。此外,我们还估算了受影响的人口数量:首先对每个区域内受影响像素对应的数据层进行重采样,然后使用空间分析工具估算受影响人口数量。(18) pi=ρiDa,其中Pi是每个区域的受影响人口数量;ρi是城市洪水影响像素下的人口密度。 4. 结果 4.1 基于社交媒体文本的ufs估算结果 4.1.1 城市洪水灾害文本中关键信息的分析 文本信息提取结果如图9所示。在词云(图9a)中,关于7.20洪水事件的微博讨论主要包含三类信息:首先,公众对此次洪水事件的关注,经常出现的词汇包括暴雨、天气、内涝、洪水、降雨以及与灾害地点相关的词汇,如河南、郑州、焦作和巩义。微博文本中出现频率最高的词汇是“暴雨”,共出现了49,447次(图9b)。其次,关注紧急防洪工作,高频词汇包括消防、紧急情况、防洪、救援和求助。第三,讨论7.20洪水的损失或负面影响,包括老年人、人员、车辆、道路和运营中断等词汇。这些分类结果与第3.1.1节的分类一致。 图9. 关于7.20洪水事件的微博推文文本信息提取结果:词云(a)、前十高频词汇(b)、词汇共线网络(c)和聚类子图(d)。 这个四部分图以2x2网格排列。a部分显示了一个词云,其中“暴雨”、“河南”、“郑州”、“大家”和“消防”等词汇以较大字体显示,表示出现频率较高;b部分展示了一个带有八个辐条的雷达图,标签包括暴雨、河南、互助、郑州、区域、小时、大家和天气;折线图用三角形标记显示频率值,范围从0到60000,其中暴雨和河南的频率最高;c部分呈现了一个词汇共线网络图,节点代表词汇,线条表示连接关系。关键聚类包括紧急情况、预防、响应、工作、被淹没、道路、车辆、救援、传播、物资、联系、方式、影响、人群、安全、帮助、援助、降雨、强烈、降水、天气、气象、预期、对流、洪水、积水、郑州、河南、灾害、暴雨、部分和区域;d部分显示了一个垂直列表,包含九个维度,每个维度都有编号和描述性标签:1. 食品影响维度;2. 灾害预警维度;3. 极端暴雨维度;4. 紧急防洪维度;5. 物资供应维度;6. 安全预防维度;7. 火灾救援维度;8. 损失维度;9. 互助维度。 我们构建了一个关键词共线网络(图9c)以进一步探索关键词与7.20洪水事件之间的内在关系。具体来说,基于glove模型提取了文本关键词,然后使用jaccard相似系数和kruskal算法构建了共线网络。九个主要子图(图9c)被聚类以进行信息交换。每个子图组成的维度反映了公众在社交媒体上关于7.20洪水事件的讨论主题(图9d)。可以看出,共线网络和词云并不完全一致。例如,子图1是洪水影响维度,涉及暴雨、受影响区域和城市洪水的讨论,以及河南和郑州等地点关键词;子图2是灾害预警维度,包括气象部门发布的相关预警和预报信息;子图3是极端暴雨描述维度,涉及此次事件引发的灾害过程,如强对流和强降水;子图4、6、7和9分别是紧急防洪维度、安全预防维度、火灾救援维度和互助维度;子图5是物资供应维度,涉及部分物资捐赠和物资短缺的文本;子图8是洪水损失维度,涉及道路和车辆等受损情况。这也证实了社交媒体文本确实包含一些与ufs相关的信息(tan和schultz,引用2021年)。 4.1.2 基于社交媒体文本的ufs分析 基于nb算法分类的结果进行了手动筛选,以检查可能被错误分类或分类不足的文本。例如,某条微博文本可能对应多个洪水损害类别(表5)。 表5. 微博文本对应的洪水损害类别。 下载csv 经过筛选和处理后,共提取了8664条有效的微博推文,形成了用于估算ufs的数据集。图10显示了不同地区的ufs分类结果,郑州在ufs相关文本数量上排名第一,其次是新乡和鹤壁(图10a);相比之下,三门峡、洛河和驻马店等城市的ufs相关文本较少。图10b显示了郑州各区的ufs情况,巩义在ufs相关文本数量上排名第一,其次是金水区和新乡。从ufs的分类角度来看,受影响人口最多,其次是财产损失和基础设施损失;受影响的经济生产活动数量相对较少。在这些微博内容中,公众更关注7.20洪水灾害期间的求助信息和互助行动,以及房屋倒塌和车辆淹没等即时和紧急的灾害影响。 图10. 7.20洪水事件期间河南(a)和郑州(b)的ufs情况。 这个双面板条形图显示了各城市和地区的ufs相关文本数量。a部分显示了河南各城市的堆叠条形图,横轴列出城市名称:郑州、洛阳、南阳、许昌、周口、新乡、商丘、驻马店、新乡、平顶山、开封、安阳、焦作、濮阳、洛河、三门峡、鹤壁和济源;纵轴标记了ufs相关文本数量,范围从0到6000;图例表示五个类别:受影响人口、受影响的经济生产活动、房屋 建筑物损失、财产损失和基础设施损失。郑州的总数最高,主要由受影响人口构成,其次是新乡和周口;其他城市的数量较低。b部分显示了郑州各区的堆叠条形图,横轴列出地区名称:中原、二七、金水、汇济、冠城、尚杰、巩义、新郑、新密、新乡、邓峰和中牟;纵轴标记了ufs相关文本数量,范围从0到2000;图例与a部分相同。新郑的总数最高,主要由受影响人口构成,其次是金水和中牟。其他地区的数量较低。 图11显示了每个ufs分类的前五个地区。从各个类别来看,郑州、新乡和鹤壁等地区遭受了更严重的ufs(图11a)。这些地区经历了大规模的城市洪水和破坏,影响了大量人员、建筑物和基础设施。此外,图11b显示了郑州的ufs情况,可以看出巩义市、金水区、新阳市和二七区的ufs最为严重。 图11. 河南(a)和郑州(b)各ufs类别的前五个地区。注意:地区排名是从上到下排列的。 这个并排的双面板图显示了各地区的分类情况。左侧面板a显示了四个地区簇,用虚线连接到分类下的四个类别:第一个簇包括郑州、新乡、鹤壁、焦作和开封;第二个簇包括郑州、新乡、新乡、鹤壁和洛阳;第三个簇包括郑州、新乡、周口、鹤壁和上丘;第四个簇包括郑州、新乡、焦作、洛阳和鹤壁。这些簇分别与受影响人口、受影响的经济生产活动、财产损失、房屋 建筑物损失和基础设施损失相关联。右侧面板b也显示了四个地区簇,用虚线连接到分类下的四个相同类别:第一个簇包括巩义、金水、新乡、二七和中牟;第二个簇包括金水、邓峰、二七、中牟和冠城;第三个簇包括金水、新乡、二七、巩义和冠城;第四个簇包括巩义、金水、新乡、二七和邓峰。这些簇分别与受影响人口、受影响的经济生产活动、财产损失、房屋 建筑物损失和基础设施损失相关联。 图12显示了lfs模型的空间分布结果。郑州、新乡和鹤壁的ufs非常严重,洛阳、南阳、安阳和焦作的ufs较为严重(图12a);对于郑州(图12b),受影响最严重的城市是巩义和新密;受影响较严重的地区是二七和冠城;中度受影响的地区是金水、新乡和中牟。 图12. 河南(a)和郑州(b)的ufs等级。>
自1949年新中国成立以来,河南在1963年、1975年、1982年、1996年和2021年多次遭受洪水灾害,其中1975年和2021年的洪水事件被视为千年一遇的灾难。β'是根据1985年河南的财产损失值计算得出的。当时河南进行了一次较为广泛的社会经济调查,涵盖了当时的财产结构,并包括了如果1963年、1975年和1982年的洪水事件发生在1985年的情况下的洪水损失转换值。由于1985年至2021年间价格水平和损失率的变化,需要重新计算β'。根据公式(16) β=δ(1+α)γβ′,转换因子为(1?+?0.04)^(2021?1985+1)?=?4.27(即γ?=?2021???1985?+?1?=?37)。根据1985年新乡每亩749元人民币的损失水平,2021年的估计损失为每平方公里1900万元人民币。结合洪水影响区域,新乡的直接经济损失可计算为58.67亿元人民币(表6)。此外,我们还估算了受影响的人口数量:首先对每个区域内受影响像素对应的数据层进行重采样,然后使用空间分析工具估算受影响人口数量。(18) pi=ρida,其中pi是每个区域的受影响人口数量;ρi是城市洪水影响像素下的人口密度。
4. 结果
4.1 基于社交媒体文本的ufs估算结果
4.1.1 城市洪水灾害文本中关键信息的分析
文本信息提取结果如图9所示。在词云(图9a)中,关于7.20洪水事件的微博讨论主要包含三类信息:首先,公众对此次洪水事件的关注,经常出现的词汇包括暴雨、天气、内涝、洪水、降雨以及与灾害地点相关的词汇,如河南、郑州、焦作和巩义。微博文本中出现频率最高的词汇是“暴雨”,共出现了49,447次(图9b)。其次,关注紧急防洪工作,高频词汇包括消防、紧急情况、防洪、救援和求助。第三,讨论7.20洪水的损失或负面影响,包括老年人、人员、车辆、道路和运营中断等词汇。这些分类结果与第3.1.1节的分类一致。
图9. 关于7.20洪水事件的微博推文文本信息提取结果:词云(a)、前十高频词汇(b)、词汇共线网络(c)和聚类子图(d)。
这个四部分图以2x2网格排列。a部分显示了一个词云,其中“暴雨”、“河南”、“郑州”、“大家”和“消防”等词汇以较大字体显示,表示出现频率较高;b部分展示了一个带有八个辐条的雷达图,标签包括暴雨、河南、互助、郑州、区域、小时、大家和天气;折线图用三角形标记显示频率值,范围从0到60000,其中暴雨和河南的频率最高;c部分呈现了一个词汇共线网络图,节点代表词汇,线条表示连接关系。关键聚类包括紧急情况、预防、响应、工作、被淹没、道路、车辆、救援、传播、物资、联系、方式、影响、人群、安全、帮助、援助、降雨、强烈、降水、天气、气象、预期、对流、洪水、积水、郑州、河南、灾害、暴雨、部分和区域;d部分显示了一个垂直列表,包含九个维度,每个维度都有编号和描述性标签:1. 食品影响维度;2. 灾害预警维度;3. 极端暴雨维度;4. 紧急防洪维度;5. 物资供应维度;6. 安全预防维度;7. 火灾救援维度;8. 损失维度;9. 互助维度。
我们构建了一个关键词共线网络(图9c)以进一步探索关键词与7.20洪水事件之间的内在关系。具体来说,基于glove模型提取了文本关键词,然后使用jaccard相似系数和kruskal算法构建了共线网络。九个主要子图(图9c)被聚类以进行信息交换。每个子图组成的维度反映了公众在社交媒体上关于7.20洪水事件的讨论主题(图9d)。可以看出,共线网络和词云并不完全一致。例如,子图1是洪水影响维度,涉及暴雨、受影响区域和城市洪水的讨论,以及河南和郑州等地点关键词;子图2是灾害预警维度,包括气象部门发布的相关预警和预报信息;子图3是极端暴雨描述维度,涉及此次事件引发的灾害过程,如强对流和强降水;子图4、6、7和9分别是紧急防洪维度、安全预防维度、火灾救援维度和互助维度;子图5是物资供应维度,涉及部分物资捐赠和物资短缺的文本;子图8是洪水损失维度,涉及道路和车辆等受损情况。这也证实了社交媒体文本确实包含一些与ufs相关的信息(tan和schultz,引用2021年)。
4.1.2 基于社交媒体文本的ufs分析
基于nb算法分类的结果进行了手动筛选,以检查可能被错误分类或分类不足的文本。例如,某条微博文本可能对应多个洪水损害类别(表5)。
表5. 微博文本对应的洪水损害类别。
下载csv
经过筛选和处理后,共提取了8664条有效的微博推文,形成了用于估算ufs的数据集。图10显示了不同地区的ufs分类结果,郑州在ufs相关文本数量上排名第一,其次是新乡和鹤壁(图10a);相比之下,三门峡、洛河和驻马店等城市的ufs相关文本较少。图10b显示了郑州各区的ufs情况,巩义在ufs相关文本数量上排名第一,其次是金水区和新乡。从ufs的分类角度来看,受影响人口最多,其次是财产损失和基础设施损失;受影响的经济生产活动数量相对较少。在这些微博内容中,公众更关注7.20洪水灾害期间的求助信息和互助行动,以及房屋倒塌和车辆淹没等即时和紧急的灾害影响。
图10. 7.20洪水事件期间河南(a)和郑州(b)的ufs情况。
这个双面板条形图显示了各城市和地区的ufs相关文本数量。a部分显示了河南各城市的堆叠条形图,横轴列出城市名称:郑州、洛阳、南阳、许昌、周口、新乡、商丘、驻马店、新乡、平顶山、开封、安阳、焦作、濮阳、洛河、三门峡、鹤壁和济源;纵轴标记了ufs相关文本数量,范围从0到6000;图例表示五个类别:受影响人口、受影响的经济生产活动、房屋/建筑物损失、财产损失和基础设施损失。郑州的总数最高,主要由受影响人口构成,其次是新乡和周口;其他城市的数量较低。b部分显示了郑州各区的堆叠条形图,横轴列出地区名称:中原、二七、金水、汇济、冠城、尚杰、巩义、新郑、新密、新乡、邓峰和中牟;纵轴标记了ufs相关文本数量,范围从0到2000;图例与a部分相同。新郑的总数最高,主要由受影响人口构成,其次是金水和中牟。其他地区的数量较低。
图11显示了每个ufs分类的前五个地区。从各个类别来看,郑州、新乡和鹤壁等地区遭受了更严重的ufs(图11a)。这些地区经历了大规模的城市洪水和破坏,影响了大量人员、建筑物和基础设施。此外,图11b显示了郑州的ufs情况,可以看出巩义市、金水区、新阳市和二七区的ufs最为严重。
图11. 河南(a)和郑州(b)各ufs类别的前五个地区。注意:地区排名是从上到下排列的。
这个并排的双面板图显示了各地区的分类情况。左侧面板a显示了四个地区簇,用虚线连接到分类下的四个类别:第一个簇包括郑州、新乡、鹤壁、焦作和开封;第二个簇包括郑州、新乡、新乡、鹤壁和洛阳;第三个簇包括郑州、新乡、周口、鹤壁和上丘;第四个簇包括郑州、新乡、焦作、洛阳和鹤壁。这些簇分别与受影响人口、受影响的经济生产活动、财产损失、房屋/建筑物损失和基础设施损失相关联。右侧面板b也显示了四个地区簇,用虚线连接到分类下的四个相同类别:第一个簇包括巩义、金水、新乡、二七和中牟;第二个簇包括金水、邓峰、二七、中牟和冠城;第三个簇包括金水、新乡、二七、巩义和冠城;第四个簇包括巩义、金水、新乡、二七和邓峰。这些簇分别与受影响人口、受影响的经济生产活动、财产损失、房屋/建筑物损失和基础设施损失相关联。
图12显示了lfs模型的空间分布结果。郑州、新乡和鹤壁的ufs非常严重,洛阳、南阳、安阳和焦作的ufs较为严重(图12a);对于郑州(图12b),受影响最严重的城市是巩义和新密;受影响较严重的地区是二七和冠城;中度受影响的地区是金水、新乡和中牟。
图12. 河南(a)和郑州(b)的ufs等级。
这个双面板地图显示了ufs等级。a部分显示了标注了各个城市的河南省地图;ufs等级图例表示弱、轻微、中度、严重和极端严重四个等级;b部分显示了标注了各区的郑州市更详细的地图,其ufs等级图例与a部分相同,也表示弱、轻微、中度、严重和极端严重四个等级。>两个面板都包含一个北箭头和一个以公里为单位的刻度尺。显示全尺寸。此外,相关的微博内容包含了许多关于7.20洪水事件的实时描述。例如,“明理路被淹没了”,“巩义的信号塔被冲走了”,以及“延荣希望幼儿园的一楼教室被淹了”。还有大量关于人员被困的描述,例如“超过300名老年人在辉县的巩济医院被困”。这些描述有助于快速识别城市中的积水点。
4.2 基于遥感的UFS估算结果
4.2.1 洪水影响区域的分布
使用ArcGIS和ENVI软件提取了洪水体的像素范围(图13)。与7.20洪水之前的时期(图13a)相比,通过遥感提取的洪水影响像素主要分布在降雨量大的地区,如郑州、洛阳和开封等城市(图13b)。一些山区和丘陵地区也发生了洪水,但由于本研究关注的是城市地区,因此没有进一步分析这些地区(Wu等人,引用2023年)。因此,识别出了河南省每个城市的城市区域,并量化了遥感图像中的洪水影响区域(如表6所示)。郑州的洪水影响面积最大,达到829.82平方公里。这些城市的洪水影响面积也超过了300平方公里,例如洛阳、南阳、许昌和周口。这表明7.20洪水事件造成的破坏分布不均,主要集中在降雨量大的地区。
表6. 河南省UFS的估算结果。下载CSV。显示表格。
图13. 洪水影响区域的提取结果。洪水前的水体识别结果(a)和洪水后的水体识别结果(b)。阅读此图的详细描述。
两个并排排列的面板地图显示了数字高程模型和水体识别。面板a显示了洪水前的情况。图例表示DEM(单位:米),范围从23到2413米,颜色渐变从绿色到红色。一条黑线代表边界。洪水前的水体识别显示为浅蓝色。面板b显示了洪水后的情况,使用相同的DEM和边界图例。洪水后的水体识别显示为深蓝色,覆盖的区域明显大于面板a。两个面板都包含一个北箭头和一个从0到120公里的刻度尺。显示全尺寸。
4.2.2 基于遥感的UFS估算结果
估算结果显示,7.20洪水事件影响的城市之间的UFS差异显著(表6)。其中,郑州遭受的直接经济损失最为严重,达到439.94亿元人民币,占该市GDP的3.47%。7.20洪水也对南阳和许昌造成了相对较大的破坏,直接经济损失分别为104.92亿元和99.71亿元人民币,而济源和三门峡等地区的破坏相对较小。
表6. 河南省UFS的估算结果。下载CSV。显示表格。
图13. 洪水影响区域的提取结果。洪水前的水体识别结果(a)和洪水后的水体识别结果(b)。阅读此图的详细描述。
这两个面板地图并排显示,展示了数字高程模型和水体识别。面板a显示了洪水前的情况。图例表示DEM(单位:米),范围从23到2413米,颜色渐变从绿色到红色。一条黑线代表边界。洪水前的水体识别显示为浅蓝色。面板b显示了洪水后的情况,使用相同的DEM和边界图例。洪水后的水体识别显示为深蓝色,覆盖的区域明显大于面板a。两个面板都包含一个北箭头和一个从0到120公里的刻度尺。显示全尺寸。
4.2.2 基于遥感的UFS估算结果
估算结果显示,7.20洪水事件影响的城市之间的UFS差异显著(表6)。其中,郑州遭受的直接经济损失最为严重,达到439.94亿元人民币,占该市GDP的3.47%。7.20洪水也对南阳和许昌造成了相对较大的破坏,直接经济损失分别为104.92亿元和99.71亿元人民币,而济源和三门峡等地区的破坏相对较小。
表6. 河南省UFS的估算结果。下载CSV。显示表格。
由于河南省政府公布的实际洪水损失数据缺失(Lu等人,引用2025年),我们仅基于河南省和郑州市的数据验证了UFS估算的准确性。估算值与实际值之间的平均相对误差(MRE)为9.67%,均方根误差(RMSE)为102.27%。在河南省,公布的受影响人口为1478.6万人,而估算值为1586.47万人,相对误差(RE)为7.30%。可以看出,基于遥感的估算模型具有一定的准确性。
表7. 估算结果的准确性。下载CSV。显示表格。
由于河南省缺乏官方的洪水影响区域数据,本研究通过比较降雨量和洪水影响区域来分析估算结果的准确性。对受影响像素与最大小时降雨量进行了回归分析,得到了良好的结果(图14a)。洪水影响区域与实际降雨特征吻合良好(图14b)。这表明使用NDWI-OTSU方法提取的结果具有一定的可靠性。此外,与之前的研究相比,河南省的洪水影响面积为5441.73平方公里(Cui等人,引用2023年),郑州市为941.7平方公里(Zhang等人,引用2021年),新乡市为380平方公里(Zhang等人,引用2022年)。这些发现与本研究的结果总体一致,平均准确率为90%。
图14. 降雨量与洪水影响区域的比较。受影响像素数量与最大小时降雨量的回归模型(a),总降雨量与洪水影响区域的比较(b)。阅读此图的详细描述。
两个面板图显示了降雨量和洪水影响区域。面板a是一个散点图,横轴为受影响像素数量,纵轴为最大小时降雨量(单位:毫米)。数据点从左到右逐渐增加。存在一条线性回归线,方程为y = 0.0551x - 37.549,R平方值为0.748。面板b是一个配对条形图和折线图。横轴列出了城市:郑州、洛阳、南阳、许昌、周口、新乡、商丘、驻马店、新乡、平顶山、开封、安阳、焦作、濮阳、洛河、鹤壁、济源。左纵轴为平方公里,范围从0到900;右纵轴为毫米,范围从0到800。绿色条形代表洪水影响区域,从郑州到济源逐渐减小。一条红线代表总降雨量,在不同城市之间有波动,峰值出现在郑州、新乡、安阳和洛河。
4.3 混合框架分析
4.3.1 估算结果的相关性分析
我们进行了相关性分析(图15),比较了两个数据源的结果。在河南省的大多数地区,直接经济损失(来自遥感)与与灾害相关的文本数量(来自社交媒体)之间存在正相关。相关系数为0.86。横轴上的较大值表示相应地区在社交媒体上受到更多关注。这表明这些地区遭受的洪水更为严重(Duan等人,引用2024年;Yang等人,引用2022年)。根据遥感图像的结果(纵轴),可以观察到一些受到7.20洪水严重影响的地区,如南阳和许昌。然而,这些地区在社交媒体平台上关于洪水破坏的关注相对较少。这一发现与以往研究的结论相反(Lu等人,引用2025年;Tan和Schultz,引用2021年)。当城市遭受严重洪水时,这些地区的人们难以上传社交媒体数据。此外,社交媒体数据的不均匀分布也受到地区人口分布和经济发展水平的影响。这一观点证实了以往研究的发现(Yang等人,引用2022年)。对于某些城市(例如鹤壁),根据相关文本数据,我们发现该地区的UFS较为严重。鹤壁的洪水情况引起了公众的关注。我们查阅了官方新闻报道(https://haokan.baidu.com/v?pd=wisenatural&vid=14307007606416608304,访问日期为2025年12月29日),并确认了从社交媒体中挖掘的信息。由于多种影响因素,遥感图像可能无法完全反映洪水灾害信息(Yang等人,引用2022年;Zheng等人,引用2023年)。例如,分辨率限制或地面障碍物,以及7月22日后堤坝决口导致的鹤壁洪水加剧等因素可能导致鹤壁的直接经济损失被低估。这进一步强调了多源数据对于准确估算UFR的重要性。
图15. 估算结果的相关性分析。阅读此图的详细描述。
散点图显示了纵轴上的直接经济损失(单位:亿元人民币)与横轴上的UFS相关文本数量。数据点标有城市名称。一条线性回归线显示正相关,方程为y = 0.0737x + 39.054,R平方值为0.8645。主图显示郑州的UFS相关文本数量约为5200条,直接经济损失约为4.4亿元人民币;新乡的UFS相关文本数量约为1600条,直接经济损失约为60亿元人民币;鹤壁的UFS相关文本数量约为600条,直接经济损失约为30亿元人民币。插图用虚线红色突出显示了横轴上约3800到6000条UFS相关文本和纵轴上0到120亿元人民币之间的数据点簇。在插图中,可以看到南阳、许昌、周口、洛阳、新乡、商丘、驻马店、安阳、平顶山、开封、焦作、濮阳、洛河、三门峡和济源等城市,鹤壁也在此放大视图中可见。插图还包括一条线性回归线,显示了这些聚集数据的类似正相关趋势。
4.3.2 综合分析
(1) UFS结果的比较
本研究根据《中国干旱和洪水灾害分类标准》比较了估算结果和可视化直接经济损失结果,如图16所示。
图16. 通过遥感获得的直接经济损失水平。阅读此图的详细描述。
地图显示了地理区域内的直接经济损失,由内部边界划分并用城市名称标注。横轴范围从东经110度0分0秒到东经118度0分0秒;纵轴范围从北纬30度0分0秒到北纬36度0分0秒。左上角的罗盘玫瑰表示北方。左下角的图例将直接经济损失水平分为:显著、重大和特别显著。大部分映射区域,包括郑州、洛阳、南阳和新乡等城市,被标记为特别显著的损失。少数地区,如安阳、濮阳和鹤壁,显示为重大损失。右下角的刻度尺表示距离范围从0到220公里。
两种方法的估算结果基本一致,都表明郑州和新乡等地区的UFS更为严重。然而,也存在一些差异。具体来说,文本分析显示鹤壁的UFS排名较高(图12a)。然而,在遥感结果中,鹤壁的直接经济损失水平属于“极其严重”类别(也可从表6中看出)。这种差异可能源于多种因素。首先,MODIS数据容易受到云层覆盖的影响(Duan等人,引用2024年),这可能导致某些地区的结果不准确。其次,我们仅分析了7.20洪水期间的水体情况(7月19日至22日),而没有分析7月23日之后的情况。7月23日之后的强降雨导致鹤壁渭河水位上升,因为上游水流和水库排水。为了应对这一罕见洪水事件,河南省政府紧急启动了八个洪水滞留区,其中六个位于鹤壁(Zhang等人,引用2022年)。7月23日之后的大规模泄洪措施可能导致大量洪水进入鹤壁,可能进一步加剧UFS。
(2) 混合框架减少不确定性并提高准确性
比较显示,混合框架具有以下优势(表8)。
表8. 估算结果比较。下载CSV。显示表格。
① 减少单一数据源的潜在偏差。在鹤壁等地区,由于云层覆盖和洪水滞留区的启用等复杂因素,遥感估算可能会低估实际洪水损失。社交媒体文本可以及时反映这些变化。通过比较分析可以识别遥感数据和基于文本的结果之间的不一致之处。本研究证实了官方新闻报道中鹤壁洪水灾害的严重性,从而纠正了仅依赖遥感数据可能导致的潜在低估风险。
② 从多个维度表征UFS。仅依赖遥感数据只能提供经济损失和受影响人口的估算,无法直接反映城市洪水的社会影响。该混合框架利用文本数据将洪水灾害分为五种类型,这使得估算结果对于应急响应决策更加有价值。5. 讨论 5.1. 空间-时间演变分析 社交媒体文本提供了从时间角度对城市洪水灾害(UFS)的实时变化和多类型分析(Lu等人,引用2025)。遥感技术能够提取空间信息以分析受洪水影响的水体(Duan等人,引用2024)。这两种类型的数据相互补充,共同构成了一个多维度的UFS分析框架。对社交媒体文本进行了可视化和分析。从时间上看,7月20日的微博讨论呈现出阶段性特征。7月19日之后的极端降水引发了城市洪水,导致微博上与洪水相关的讨论突然增加(图17a)。最常被讨论的UFS类型是受影响的人口和财产损失(图17b)。7月24日,微博上的讨论强度有所下降(图17a)。我们认为这可能与灾后应急响应系统的发展和降雨转移有关。与其他类型相比,受影响的经济生产活动数量相对较少(图17b)。公众讨论存在时间滞后效应。这一发现与以往的研究结果基本一致(Tan和Schultz,引用2021;Wang等人,引用2024a)。这可能与灾害经济学理论有关(Wei等人,引用2016)。在重大洪水事件中,人员伤亡和城市内涝等直观的损害往往比受影响的经济生产活动更受关注(Lu等人,引用2025)。这表明未来的研究应强调估算洪水引发的连锁损失,以便全面科学地评估UFS。图17. 每日与UFS相关的文本量(a)和UFS类别数量(b)。这个双面板条形图显示了每日与UFS相关的文本量和UFS类别的数量。A面板是一个单系列条形图,展示了7月10日至8月9日期间每日与UFS相关的文本量。纵轴范围从0到2500。条形图显示7月10日至7月18日期间文本量较低,然后在7月21日至7月22日期间急剧增加达到峰值,随后急剧下降并保持较低水平直至8月9日。B面板是一个分组条形图,展示了7月19日至7月22日期间UFS类别的数量。纵轴范围从0到1400。显示了五个类别:受影响的人口、受影响的经济生产活动、房屋/建筑物损坏、财产损失和基础设施损坏。受影响的人口数量最高,从7月19日的约75增加到7月22日的超过1200。财产损失位居第二,从7月19日的约75增加到7月22日的约275。其他三个类别在各个日期期间保持较低水平。空间上,使用克里金插值方法反演了降雨分布(图18)。7月19日,强降雨中心位于河南省中部,包括郑州、许昌和洛阳(图18a)。7月20日,降雨强度和范围增加,达到630毫米的峰值(图18b)。7月21日,降雨范围缩小并向北移动。鹤壁和新乡的最强小时降雨比郑州晚一天发生(图18c)。7月22日,河南的降雨减少(图18d)。空间-时间分析的结果并不完全吻合。这可能是由于社交媒体数据的滞后效应。另一个可能的原因是不同地区的人口密度和互联网覆盖率的差异。这意味着降雨量高的地区并不一定有大量的讨论。图18. 7月20日洪水事件期间的降雨空间分布。这个四面板地图以两两排列的方式展示了7月19日至7月22日期间某一地区的降雨分布。A面板(7月19日)显示降雨量从0到352毫米,最高降雨集中在中北部地区。B面板(7月20日)显示降雨量从0到630毫米,最高降雨集中在稍微偏东北的方向。C面板(7月21日)显示降雨量从0到447毫米,最高降雨集中在最北部的中部地区。D面板(7月22日)显示降雨量从0到159毫米,最高降雨集中在中西部地区。每个面板都包含一个罗盘玫瑰图和标尺,表示0到140公里的范围。5.2. 与以往研究的比较 与以往的研究相比,包括仅基于社交媒体的洪水灾害估算(Lu等人,引用2025;Tan和Schultz,引用2021;Wu等人,引用2024)或仅基于遥感的估算(Debnath等人,引用2024;Nazir等人,引用2025;Samprogna等人,引用2025),以及结合多源数据的分析(Scotti等人,引用2020;Zheng等人,引用2023),本研究强调了估算UFS的及时性和便利性。我们利用了社交媒体文本和遥感数据来估算UFS(Duan等人,引用2024)。与Tan和Schultz(引用2021)的研究结果一致,我们的研究表明社交媒体文本包含了大量与城市洪水损失相关的信息。这些信息可以补充其他数据源(例如遥感、实地调查)来分析UFS。与其他研究(Li等人,引用2023;Lu等人,引用2025;Tan和Schultz,引用2021)相比,遥感和文本数据从不同角度揭示了多种类型的UFS。所提出的框架弥补了这两种单一方法在估算UFS方面的不足(Zheng等人,引用2023)。与以往的研究不同,本研究不仅关注财产损失、建筑物损失(Zheng等人,引用2023)和基础设施损坏(Qin等人,引用2024;Suresh等人,引用2024),还关注受影响的经济生产活动和受影响的人口。这将有助于相关政府部门做出更好的应急管理决策。相比之下,所提出的框架使用实时文本数据来验证和补充遥感的结果。例如,在城市洪水灾害期间,包含“道路淹没”和“地面沉降”等关键词的微博推文被用来识别关键基础设施的故障。这一发现支持了以往研究的结论(Chen等人,引用2023;Lu等人,引用2025)。具体来说,文本数据可以用来识别城市洪水淹没点,从而快速监测积水情况(Chen等人,引用2023;Lu等人,引用2025)。此外,所提出的方法可以有效提取额外的洪水损失信息,如受影响人口的空间分布和淹没区域的详细洪水情况(Yang等人,引用2022)。展望未来,所提出的UFS估算框架具有跨平台迁移的潜力,例如Twitter平台。它也可以应用于其他地区。例如,它适用于降雨量大、洪水频繁且社交媒体普及率高的城市。该框架有潜力与实时洪水响应系统集成。然而,对于社交媒体普及率低的地区,应调整框架以优化文本数据来源。可以用移动通信信号、紧急广播信息和社区注册信息等替代来源补充社会感知数据。5.3. 局限性和未来研究 本研究仍存在一些局限性。由于人口密度、互联网普及率、用户活动和城市偏见等因素,社交媒体数据的数量可能表现出一定的空间异质性。此外,在城市洪水初期,互联网通信可能会受到影响,导致社交媒体帖子的延迟。这些因素可能会在某些地区夸大或低估UFS。未来的研究可以基于人口密度开发校正模型,或引入发布强度指数等指标来量化偏见因素对UFS估算的影响。此外,虽然分析了来自两个数据源的UFS估算结果,但尚未探索融合机制。未来的研究应开发用于融合多源异构数据的算法。这将有助于优化UFS估算模型的参数配置。6. 结论 本研究有助于开发一种快速简洁的城市规模UFS估算框架。选择了7月20日的洪水事件作为案例研究。随后,基于NB–SVM–RF方法构建了一个洪水灾害分类系统。然后应用LFS和NDWI–OTSU模型分析了河南省18个城市的UFS,并进行了比较。主要结论总结如下:(1) 文本分析结果表明,该事件在河南省造成了不同程度的UFS。郑州和新乡的UFS极为严重,而洛阳、南阳、安阳和焦作的UFS较为严重。(2) 在UFS的各类中,受影响的人口最为严重,其次是财产损失和基础设施损坏。(3) 遥感估算结果显示,河南省的直接经济损失估计为1341.89亿元人民币,平均相对误差(MRE)为9.67%,均方根误差(RMSE)为102.27。估计的受影响人口为1586.47万人,相对误差(RE)为7.30%。(4) 两种方法得出的结果基本一致,相关系数为0.86。这些发现为相关部门制定城市洪水缓解策略和合理分配应急资源提供了依据。这些结论有助于推进有效的城市洪水管理和灾后恢复。未来的研究可以进一步整合气象和保险索赔数据,以提高UFS估算的准确性,并将所提出的框架扩展到不同气候区以验证其适用性。数据可用性声明 由于社交媒体数据涉及个人信息,部分数据将按需提供。图2、13和18的原始遥感数据从https://ladsweb.nascom.nasa.gov/search下载。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号