在电网级人口减少预测中评估政策敏感性:基于机器学习的韩国情景分析
作者:Hyeryeon Jo、Miyeon Ahn、Youngeun Kang
《ISPRS International Journal of Geo-Information》:Assessing Policy Sensitivity in Grid-Level Depopulation Projections: A Machine Learning-Based Scenario Analysis for South Korea
Hyeryeon Jo,
Miyeon Ahn and
Youngeun Kang
【字体:
大
中
小
】
时间:2026年04月27日
来源:ISPRS International Journal of Geo-Information 2.8
编辑推荐:
摘要 在人口下降的背景下,网格级人口预测对于空间规划至关重要,特别是确保人口分配能够考虑到网格区域消失的风险。本研究开发了一个两阶段的机器学习框架,用于预测韩国1公里网格系统内的居民网格转变,并评估空间政策如何影响2050年之前的人口减少结果。第一阶段使用
摘要 在人口下降的背景下,网格级人口预测对于空间规划至关重要,特别是确保人口分配能够考虑到网格区域消失的风险。本研究开发了一个两阶段的机器学习框架,用于预测韩国1公里网格系统内的居民网格转变,并评估空间政策如何影响2050年之前的人口减少结果。第一阶段使用随机森林分类算法来预测网格状态转变(宏观平均F1分数为0.694),而第二阶段应用LightGBM回归算法进行人口预测(决定系数为0.950)。第一阶段得出的消失概率地图被纳入情景模拟中,根据预测的居民宜居性来调整人口分配。特征重要性分析表明,基线人口、家庭数量和人口构成是网格级居民转变的关键决定因素。通过模拟到2050年的五种空间发展情景,发现政策具有显著的敏感性。累积消失率从极端分散情况下的3.1%到极端集中情况下的24.5%不等,这反映了空间分配政策造成的25个百分点的差异。各省份之间的差异明显,农村省份的消失率高达39.9%,而大都市地区则基本未受影响。比较不同情景的结果可以预先识别出那些分配选择对人口生存具有重要影响的网格(19.5%),这些网格主要位于森林覆盖率较高且空间隔离度较大的区域,但在人口构成上有所不同。老龄化脆弱网格(14.0%)显示出较高的老龄化比率和经济基础有限,而中等脆弱网格(5.5%)则具有较年轻的人口结构和相对较高的经济活动水平。这些差异特征为差异化的政策响应提供了空间上的依据。除了人口减少规划之外,该框架的空间输出还可以为土地利用转换规划、碳管理和人口下降背景下的基础设施优先级制定等相关规划领域提供信息。
1. 引言
城市萎缩已成为二十一世纪空间规划的一个主要挑战,尤其是在经历快速人口转变的东亚社会中[1,2]。虽然早期关于城市萎缩的讨论主要集中在西方国家的去工业化问题上,但最近的研究越来越多地认识到日本、韩国和中国由于低生育率、快速老龄化和选择性青年外流所导致的人口驱动型萎缩的独特动态[3,4,5]。与西方城市因产业结构调整而普遍出现的空间萎缩不同,东亚城市的萎缩往往伴随着大都市核心区域的持续增长,在城乡边缘地区形成了碎片化的萎缩模式[6]。韩国这一现象尤为严重。2023年该国总生育率仅为0.72,并在2024年12月正式被认定为超级老龄化社会,成为全球老龄化最快的国家[7,8]。除了总体人口下降外,人口损失的空间分布也表现出明显的极化现象。首尔大都会区集中了全国50.2%的人口,尽管仅占国土面积的12%左右;根据2021年《人口减少地区支援特别法》,226个市镇中有89个被指定为人口减少风险区域[7]。最初由日本著名的松田报告提出的“局部消失”概念已成为韩国政策讨论的核心,将人口减少不仅仅视为一种人口变化,而是对边缘社区的生存威胁[3,7]。当前应对这一挑战的规划措施存在一个关键限制:虽然市政层面的评估在行政上较为方便,但掩盖了市镇内部的巨大差异,并且容易受到可修改区域单元问题的影响[9]。一个被分类为人口稳定的市镇可能包含人口迅速减少的社区,而人口减少的市镇也可能包含具有韧性的城市核心区域,因此需要不同的政策响应。最近的研究展示了基于网格的方法在更精细的空间分辨率下识别衰退城市空间的价值,揭示了行政边界无法捕捉到的市内差异[6]。网格系统提供了时间上一致的边界,使得纵向比较成为可能,并且可以灵活地聚合成各种与政策相关的规模,同时对任意行政划分的敏感性较低[10,11]。
本研究开发了一个两阶段的机器学习框架,用于预测韩国1公里网格系统内的人口动态,并评估人口减少结果的政策敏感性。分析旨在实现四个目标:首先,开发一个分类模型来预测网格级别的居民状态转变,以及一个回归模型来预测人口变化幅度;其次,模拟代表不同政策未来的五种空间发展情景;第三,量化空间分配政策如何影响各省的累积网格消失率;第四,识别那些空间发展选择对人口减少结果影响最大的政策敏感网格。通过将预测建模与情景分析相结合,该框架提供了在人口下降条件下哪些政策选择最有效的空间证据。
本文的结构如下:第2节回顾了关于城市萎缩、网格化人口建模和基于情景的预测框架的相关文献;第3节描述了研究区域、数据来源和两阶段机器学习框架,包括情景设计;第4节展示了结果,包括模型性能、特征重要性、情景模拟和政策敏感性分类;第5节讨论了方法和政策意义;第6节总结了主要发现和未来方向。
2. 文献综述
城市萎缩涵盖了人口、经济和空间维度,带来了独特的规划挑战[1,12]。尽管早期的概念化主要关注西方城市的去工业化和经济结构调整,但当代研究认识到了多种导致萎缩的路径,包括郊区化、人口老龄化以及年轻人的选择性外流[13,14]。相应的政策响应也从以增长为导向的再生策略转向了适应性策略,如调整规模、智能萎缩和紧凑发展,这些策略承认萎缩是一种需要管理性转变而非逆转的结构现象[15,16]。日本的一些市镇率先采用了紧凑城市策略,在人口减少的情况下整合城市服务,将资源集中在指定的中心区域,同时管理边缘地区的人口减少[3]。韩国的研究也记录了类似的动态,研究了大邱的产业结构调整[5]以及被指定为人口减少风险区域的市镇的多维度政策干预[7]。然而,系统评估空间分配政策如何影响精细空间尺度上的人口减少结果仍然有限。基于网格的空间单位为分析人口萎缩下的动态提供了方法学优势。与可能需要定期修订的行政边界不同,网格系统保持了固定的几何形状,从而允许在不同普查期间进行纵向比较[10]。全球性的倡议,如WorldPop和GHS-POP,已经产生了可供免费使用的网格化人口数据集,支持从灾害响应到可持续发展监测等各种应用[17,18]。这些产品通常使用非均匀映射或机器学习方法,并利用土地覆盖、夜间灯光和建筑物轮廓等辅助数据作为分配权重来分解人口普查数据[19,20]。最近的韩国研究应用基于网格的方法来识别衰退的城市空间,表明行政边界掩盖了市镇内部的显著差异[6]。这些发现强调了高分辨率分析在针对性政策干预中的价值。
机器学习方法在人口建模方面取得了很强的预测性能,能够捕捉空间协变量和人口结果之间的非线性关系。随机森林模型利用遥感协变量有效地分解了人口普查数据[19],而梯度提升方法已被应用于不同尺度的人口变化预测[21]。在具体预测应用中,研究显示社会人口统计特征、可获得性和土地利用显著影响小范围预测的准确性[22]。Wilson等人[23]回顾了小范围预测的最新方法,指出机器学习在捕捉复杂协变量关系方面具有潜力,但需要对人口基本数据进行仔细验证。结合机器学习预测和队列成分人口统计的混合方法代表着一个新兴的方向[24]。基于情景的框架能够评估不同政策假设如何影响人口结果。共享的社会经济路径提供了标准化的叙述,这些叙述包含了在不同可持续性、区域竞争和中间情景下的人口分布预测[25,26]。在次国家层面,已经研究了人口减少背景下的紧凑发展与分散发展的情景。来自日本的研究表明,集中与分散政策之间存在显著差异,空间分配选择显著影响哪些地区会经历人口减少,而不受总体下降趋势的影响[27]。在韩国的背景下,改进的队列成分方法被应用于500米网格的预测,结果显示到2038年大约有三分之二的网格区域可能会经历人口减少[28]。然而,大多数情景框架依赖于理论上的分配权重,而不是基于实证数据的转移概率,这限制了它们反映实际空间动态的能力。
本研究通过将基于机器学习的转移预测与情景模拟相结合来弥补这些不足。该框架利用机器学习根据2015-2020年的观察模式预测网格级别状态转变,然后在情景分配框架内应用预测的概率来模拟2050年之前的不同空间发展未来。此外,通过比较不同情景的结果,可以预先识别出那些分配选择对人口生存具有重要影响的政策敏感网格,并进一步根据人口特征进行分类,以制定差异化的干预策略。
3. 材料与方法
3.1. 研究区域和数据
3.1.1. 研究区域
研究区域涵盖韩国全国,包括17个大都市市和省份,总面积约为100,210平方公里(见图1)。根据韩国统计局的普查网格系统,全国使用了1公里×1公里的网格,共包含106,906个单元格。其中,2020年有58,148个网格被分类为居民区(人口超过10人)。韩国的地形以山地为主,约占国土面积的70%(见图1a)。这种地形结构历史上限制了定居模式,使得人口集中在沿海平原、河谷和西部低地。人口分布表现出明显的空间极化(见图1b)。首尔大都会区包括首尔、仁川和京畿道,拥有约2600万居民(占全国人口的50.2%),但仅占国土面积的不到12%。相比之下,自1990年代以来,非大都市省份的人口持续减少,主要是由于农村向城市的迁移和自然减少速度加快。人口脆弱性遍布各种农村地区(见图1c)。不仅在江原道和庆尚北道等山区省份,即使在中南部平原和全罗南道等农业地区,老龄化比率也超过了40%。这一模式反映了无论地形特征如何,非大都市地区的年轻人普遍向外迁移,导致韩国农村地区的人口结构非常脆弱。
3.1.2. 数据来源和预处理
输入数据来自多个行政和地理空间来源(见表1)。表A1提供了27个解释变量的完整列表。
表1. 输入变量和数据来源总结。人口和社会经济数据来源于韩国统计地理信息服务(SGIS),该机构自2000年以来每年提供1公里分辨率的基于普查的网格统计数据。使用了2015年和2020年的数据来确定一个5年的过渡期,以评估网格级别的人口动态。选择2020年作为基准年,以确保与环境数据集(包括土地覆盖和道路网络)的时间一致性。本研究的一个关键假设是2020年的环境条件在整个预测期内保持不变,这是空间人口预测研究的常见做法,旨在减少环境变化预测的不确定性。人口变量包括总人口和六个年龄组。社会人口统计特征和土地利用已被报告为小范围人口预测的重要决定因素[22]。根据这一文献,家庭构成、住房特征和商业 establishments 分布作为解释变量被纳入,使用SGIS的网格级别普查数据。家庭变量包括总家庭数和单户家庭数,反映了网格级别上的居住结构和人口构成。高分辨率的人口估计研究表明,家庭调查数据对于捕捉人口统计中未能完全反映的定居模式非常有用[20]。住房变量包括总住房单元数和公寓单元数,作为住宅基础设施能力的代理指标。经济变量包括总商业 establishments 数和总员工数,反映了可能影响住宅吸引力和人口保留力的当地经济活动。土地覆盖数据来源于环境地理信息系统(EGIS),基于卫星图像解释提供了大约100米分辨率的土地覆盖分类。这些数据被聚合到1公里网格上,以计算七种土地覆盖类型的比例:城市/建成区、耕地、森林、草地、湿地、裸地和水域。森林和耕地覆盖作为农村特征的代理指标,而城市覆盖则表示存在建筑基础设施。地形变量源自从韩国土地、基础设施和交通部的V-World平台获得的90米数字高程模型(DEM)。每个1公里网格的平均海拔和平均坡度都被计算出来。这些变量反映了定居点的物理限制。先前的研究表明,地形特征与人口分布之间存在显著关系,较陡的坡度和较高的海拔与较低的人口密度和较高的人口减少风险相关[33,34]。可及性是通过欧几里得距离来衡量的,该距离是从韩国交通数据库(KTDB)获得的2020年道路网络shapefile中计算得出的网格中心点到最近道路的距离。道路可及性是连接服务和就业机会的代理指标,这些因素已知会影响居民选址决策和农村人口的保留[35]。本研究中的所有空间可视化都采用了韩国中央带坐标系统(EPSG:5186)进行投影。人口和社会经济网格数据来自SGIS(韩国统计局)[29],卫星图像则通过QGIS(版本3.40.10)从V-World底图获取。市级单位基于2020年的250个区级SGIS行政代码。
3.1.3 目标变量定义
第一阶段分类的目标变量代表2015年至2020年间网格级别的居住状态变化。如果一个网格的人口超过零,则被归类为“居住网格”,即存在任何人口。这种包容性的定义确保了所有记录有人口的网格,包括那些仅有少数居民的网格,都将在第二阶段的人口预测中考虑在内。网格状态的变化被分为四个互斥的类别(表2)。分布显示出了显著的类别不平衡,两个主导类别(持续存在和非居住)占了96.1%的观测值,而与政策相关的少数类别(灭绝和出现)总共只占3.8%。
3.2 两阶段机器学习和情景预测框架
3.2.1 框架原理
采用了两阶段预测框架,将网格居住状态的分类与人口数量的回归分开(图2)。这种设计反映了两种预测任务在概念上的区别。第一阶段解决一个分类问题,即一个网格是否会完全无人居住。第二阶段解决一个连续性问题,即一个居住网格将包含多少人口。两阶段方法已在相关的空间预测情境中成功应用,包括土地利用变化建模[36]和物种分布建模[37]。这种分离可以防止存在/缺失模式与强度模式的混淆,后者在联合建模时可能会降低预测性能[38]。在这种情况下,影响网格是否完全无人居住的因素(例如极端地形、偏远性)可能与影响居住状态下人口密度的因素(例如住房存量、城市服务)不同。一个关键的方法学考虑是阈值定义。第一阶段分类使用完全无人居住(人口=0)作为灭绝标准,确保所有有记录人口的网格在第二阶段都能得到考虑。随后,情景评估应用了一个功能阈值(人口>10),认识到人口较少的网格(每平方公里1-10人)缺乏维持基本居住基础设施的能力。这种双阈值方法防止了边缘网格被过早排除在人口预测之外,从而能够准确估计整个人口范围,包括决定功能灭绝结果的1-10人区间。使用替代阈值(5人、10人和20人)进行的敏感性分析证实,10人阈值最能区分政策引起的灭绝和基线人口动态(表A2)。这个阈值比之前网格级别研究中采用的零人口标准更为保守[27],在那项研究中,只有当人口降至零时,网格才被归类为灭绝。
图2. 两阶段机器学习框架和情景预测方法。上部面板展示了BAU预测,其中第一阶段的随机森林分类网格状态变化,第二阶段的LightGBM预测居住网格的人口。BAU从2020年开始,以5年为步长迭代应用机器学习预测,环境特征保持2020年的基线水平。下部面板展示了紧凑型和分散型情景预测,其中人口分配方法采用了Hori等人的方法[27],权重由当前人口()、机器学习预测的灭绝概率()和出现掩码()确定。四种政策情景作为2020年至2050年的单期转换。
3.2.2 第一阶段:居住状态分类
对于四类分类任务,评估了三种在空间预测应用中表现良好的基于树的集成算法:随机森林[39]、XGBoost[40]和LightGBM[41]。基于树的集成算法非常适合空间预测任务,因为它们能够捕捉非线性关系和变量交互作用,无需显式指定,对异常值和混合变量类型具有鲁棒性,并提供支持解释的特征重要性度量[42]。随机森林通过自助法聚合(bagging)构建决策树集成,每棵树都在自助样本上训练,并在每次分裂时考虑一个随机特征子集。这种随机化减少了过拟合并提高了泛化能力[39]。XGBoost和LightGBM是梯度提升框架,它们依次构建树木,每棵树都根据集成的残差进行训练[43]。XGBoost结合了L1和L2正则化来防止过拟合[40],而LightGBM采用基于直方图的分裂和逐叶生长以提高计算效率[41]。严重的类别不平衡(灭绝:1.9%,出现:1.9%)对分类算法构成了挑战,因为这些算法可能会偏向于多数类别以最小化整体误差,而牺牲了对少数类别的检测[44]。为了改善检测效果,采用了合成少数类过采样技术(SMOTE),该技术通过在特征空间中插值现有少数类样本来生成少数类样本[45]。研究表明,SMOTE可以在不损失多数类信息的情况下提高少数类的召回率。SMOTE仅应用于训练数据,生成合成样本,直到少数类数量与多数类相当,同时保持验证折叠中的原始类别分布。模型性能通过5折分层交叉验证进行评估,该验证方法保持了各类别的比例。主要评估指标是宏观平均F1分数(F1-macro),它是各类别F1分数的无权重平均值。F1-macro平等考虑所有类别,无论其普遍性如何,因此适用于少数类表现重要的不平衡分类[46]。总体准确率作为次要指标报告,但由于仅预测多数类的分类器可以达到96.1%的准确率,而对灭绝或出现的预测没有实际意义。根据初步实验和既定指南,随机森林配置了200棵树(n_estimators)、无限深度(max_depth = None)和每个分裂的最小样本数2,以及平衡的类别权重。XGBoost和LightGBM分别配置了200轮提升、0.1的学习率和默认的正则化参数。
3.2.3 第二阶段:人口密度回归
对于在第一阶段被分类为居住网格(持续存在或出现)的网格,使用回归模型来预测人口。目标变量是对数转换后的人口,log(pop + 1),其中加上1是为了防止在预测迭代过程中出现的人口为零的网格产生未定义的值。对数转换解决了网格人口分布的右偏问题,并稳定了预测范围内的方差[47]。评估了三种梯度提升实现方法:LightGBM[41]、XGBoost[40]和scikit-learn的梯度提升回归器[48]。性能通过5折交叉验证进行评估,主要指标是决定系数(R2),为了可解释性还报告了均方根误差(RMSE)。LightGBM配置了200轮提升、0.1的学习率和每棵树31个叶节点,以及无限深度。与第一阶段相同的27个解释变量也被用作第二阶段的预测因子。预测结果通过指数转换exp(?) ? 1反变换回原始比例的人口估计值。在模型选择进行交叉验证后,两个阶段的最终模型都在完整数据集上进行了训练,以用于情景预测。居住可行性的功能阈值通过敏感性分析(表A3)确定,并在情景评估中应用。
3.2.4 基于SHAP的解释
为了解释模型预测并识别网格级别人口动态的关键驱动因素,采用了SHAP(SHapley Additive Explanations)分析[49]。SHAP值根据合作博弈论量化了每个特征对个别预测的边际贡献,提供了连续且局部准确的特征归属。SHAP值分别针对第一阶段(分类)和第二阶段(回归)模型计算,以识别对灭绝风险和人口规模最有影响力的变量。这种可解释性分析有助于识别与政策相关的预测因子,并帮助理解驱动网格级别人口动态的机制。所有分析都是在Python 3.10.1环境中使用scikit-learn 1.6.1进行模型评估,XGBoost 2.1.4进行第一阶段分类,LightGBM 4.6.0进行第二阶段回归,imbalanced-learn 0.14.1进行SMOTE过采样,以及SHAP 0.49.1进行模型解释。空间数据处理使用了GeoPandas 1.0.1。
3.2.5 基于情景的预测
为了评估不同的空间政策如何影响网格级别的灭绝结果,将机器学习预测与Hori等人[27]改编的情景模拟框架结合起来。他们的方法表明,即使全国总人口遵循相同的轨迹,空间政策选择也会产生显著不同的人口减少结果。对于每个预测区间,根据方程(1)计算出的权重将区域人口总量[50]分配给网格:
(1)
其中 是当前网格人口, 是控制集中度强度的放大参数, 是来自第一阶段随机森林的灭绝概率(预测的非居住状态转换概率,图A1), 是基于2020年基础设施存在的居住资格的二进制出现掩码。出现掩码反映了通过网格类型特征(第4.3节)识别出的新居住发展的物理和基础设施限制。非居住网格位于平均海拔最高(367米)、坡度最陡(19.1°)和距离道路最远(1750米)的困难地形上,这些条件实际上排除了居住发展的可能性,无论政策干预如何。因此,出现掩码只允许那些具有现有居住潜力的网格进行转变,即满足以下至少一个2020年基线条件:人口大于零、有住房单元、有家庭或城市土地覆盖比例大于零的网格。这一掩码识别出78,020个网格(占总数的73.0%)有资格出现,排除了主要被森林、水域或极端地形占据的网格,因为在这些地方新的居住形成在物理上是不可行的。具有较高灭绝概率的网格获得较少的人口分配,反映了它们较低的预期居住可行性。
在紧凑型情景下(γ > 0),总区域人口的一部分γ优先分配给人口排名最高的网格,然后剩余的(1 ? γ)按比例分配,代表将人口集中在高密度区域的政策。分散型情景则采用相反的逻辑,优先分配给排名最低的网格,代表支持在低密度区域保留人口的政策。在不同情景中,γ的范围从0.2到0.4,决定了前20%或后20%的网格获得优先分配,而δ的范围从1.0到2.0,控制权重放大的程度(表3)。表3. 空间发展情景规格。BAU情景从2020年开始,以5年为步长迭代应用机器学习预测,直到2050年,代表了在没有优先分配的情况下观察到的转变模式的延续(γ = 0,δ = 1)。每次迭代都应用第一阶段分类来预测转换概率,计算分配权重,并按权重比例分配区域人口,然后根据功能阈值(人口>10)重新分类网格。在紧凑型和分散型情景中,应用了一种既定的分配方法作为从2020年到2050年的单期转换,以便与之前的研究[27]直接比较。这种方法论上的区别反映了不同的概念目的。BAU预测自然人口趋势,而政策情景评估干预效应。网格级别的特征(人口构成、家庭、住房、经济变量)在整个预测期间保持2020年的基线值不变。只有总人口通过特定于情景的权重进行重新分配。尽管网格级别的特征在2020年的值保持不变,但第一阶段的分配权重是从基于网格级别年龄结构、家庭组成和土地使用特征训练的模型中得出的,隐含地捕捉了这些特征与居住转变之间的统计关系。这种设计选择保持了相对政策比较的一致条件,同时承认动态特征更新需要与基于队列的人口模型结合。迭代的BAU过程捕捉了路径依赖的动态,因为在早期阶段失去人口的网格在随后阶段的权重会减少,可能触发衰退的连锁反应。**政策敏感性分类**
为了支持政策解读,通过情景比较和人口特征描述来评估电网级别的政策敏感性。首先,对第一阶段分类中的四种转换类型(持续存在、灭绝、出现、非居住)进行空间-人口属性的特征描述,包括人口规模、人口构成、物理环境和可访问性。结果以描述性方式呈现,而不是通过推断性测试,因为样本量过大甚至会使微小差异在统计上也变得显著[51]。其次,采用四类型分类方法比较不同情景下的结果,以识别对政策敏感的电网。通过将2050年的趋势延续(基准情景BAU)下的居住状态与极端集中居住状态进行交叉分类:在两种情况下都存活下来的电网被归类为“稳定型”,而在BAU下存活但在极端集中情况下灭绝的电网则是对政策敏感的。在BAU下灭绝的电网被归类为“已灭绝型”。对政策敏感的电网进一步根据老龄化比率(40%阈值)细分为“中等脆弱型”(老龄化<40%)和“高脆弱型”(老龄化≥40%)。这种分类方法可以识别出分配决策如何影响居住结果,以及基线人口结构是否允许自然恢复。
**4. 结果**
**4.1. 模型性能**
表4展示了各候选算法在两个阶段的交叉验证结果。对于第一阶段分类,随机森林(Random Forest)获得了最高的F1宏观分数(0.694),优于XGBoost(0.649)和LightGBM(0.648)。这种性能差距反映了不平衡分类中的一个基本权衡:梯度提升算法(gradient boosting algorithms)更倾向于预测多数类,而具有平衡类别权重的随机森林(Random Forest)能更好地检测少数类。通过对2010年的SGIS电网数据应用到2010-2015年的转变,进一步评估了第一阶段随机森林模型的时间稳定性,结果显示F1宏观分数仍为0.696;详细结果见表A2。对于第二阶段回归,所有算法都取得了高性能(R2 > 0.948)。选择LightGBM是因为其R2略高(0.950)且训练速度更快,这对于迭代情景模拟非常有用。
表4. 模型性能比较(5折交叉验证)
表5展示了所选随机森林模型的类别特定指标。持续存在类和非居住类的性能接近完美(F1 = 0.979和0.968),反映了已建立居住区和无人区的稳定性。少数类表现中等但仍有意义。灭绝类的F1为0.441,召回率为0.519,表明模型能够识别出大约一半实际发生灭绝的电网。尽管这些数值不高,但远超过随机基线的预期(每个类别1.9%),证明了该模型作为风险筛查工具的有效性。
**4.2. 特征重要性分析**
SHAP分析量化了各个变量对模型预测的贡献(表6,图3)。所有27个变量的完整重要性值见表A6。人口和家庭变量在两个预测阶段都占主导地位。基线人口在灭绝预测中排名第一(|SHAP| = 0.130),人口规模在两个阶段都排名第二(|SHAP| = 0.703)。住房存量在第一阶段排名第三,但在第二阶段下降到第十位,表明其对居住持续性的影响大于人口规模。不同年龄群体的重要性在不同阶段 có s? khác bi?t显著:在灭绝预测中,45-64岁群体重要性最高(排名4,|SHAP| = 0.023),而较年轻的劳动年龄群体(25-44岁)和青年群体(15-24岁)的重要性相对较低(分别排名9和12)。对于人口规模,儿童人口(0-14岁)成为主要预测因素(排名4,|SHAP| = 0.087),其次是45-64岁(排名3)和25-44岁(排名6)。经济变量在不同阶段表现出明显的依赖性。员工数量在灭绝预测中排名较低(排名19),但在人口规模预测中重要性显著提高(排名7,|SHAP| = 0.041)。商业 establishments的数量在两个阶段都较低(排名16和19)。土地覆盖变量对人口规模的影响比对灭绝预测更大。在城市土地覆盖方面,第一阶段排名第18位,而在第二阶段排名第5位(|SHAP| = 0.070);裸地分别在两个阶段排名第11位和第8位。地形变量和道路可访问性在两个阶段的重要性都较低。方向分析揭示了不同阶段之间的明显差异:在第一阶段,几乎所有变量的较高值都降低了灭绝概率,反映了人口和物理基础设施存在的总体保护作用。在第二阶段,不同类型变量的影响方向有所不同。人口和城市土地覆盖与人口规模呈正相关,而家庭数量和劳动年龄人口呈负相关。
表6. 按变量类别划分的SHAP特征重要性
图3. SHAP特征重要性分析:(a) 用于灭绝预测的第一阶段分类模型;(b) 用于人口规模预测的第二阶段回归模型。条形长度表示平均绝对SHAP值;颜色表示影响方向。
**4.3. 电网类型特征**
了解区分不同转变类型电网的特征对于制定政策至关重要。表7展示了四种转变类型在空间-人口维度上的描述性统计数据。持续存在型电网(52.2%)具有较高平均人口数(912人),且位于地形有利的位置,海拔最低(130米),坡度最平缓(8.9°),城市覆盖率最高(13.2%),距离道路最近(646米)。这反映了历史上的定居集中在可进入、可开发的地带。灭绝型电网具有独特的特征:人口较少(平均29人),地形恶劣(海拔231米,坡度14.7°)。值得注意的是,其老龄化比率(41.5%)仅略高于持续存在型电网,表明主要是人口规模而非年龄结构决定了灭绝风险。尽管出现型和灭绝型电网在海拔(分别为223米和231米)和坡度(分别为13.6°和14.7°)方面具有相似的地形条件,但它们的土地覆盖特征有所不同:灭绝型电网的森林覆盖率较高(69.7%),城市土地覆盖率较低(4.1%),而出现型电网的森林覆盖率较低(64.1%),城市土地覆盖率较高(5.8%),这表明空间隔离是区分这两种转变类型的因素。出现型电网的平均人口数仍然较低(7人)。非居住型电网位于地形最为恶劣的地区:平均海拔最高(367米),坡度最陡(19.1°),距离道路最远(1750米),有效地阻碍了居住开发。转变类型的空间分布揭示了不同的区域模式(图4)。灭绝型电网集中在山区省份,尤其是庆尚北道(343个电网)和江原道(308个电网),这两个省份占所有灭绝案例的36%。
**4.4. 情景模拟结果**
情景模拟受到两个关键约束的限制。首先,每个省份的总人口数遵循韩国统计局2050年的官方人口预测[50],在所有情景中保持不变。其次,情景之间的区别仅在于各省人口在电网中的分布方式。紧凑型情景将人口集中在数量较少、密度较高的电网中,而基准情景保持比例分布。因此,情景差异反映了省内的空间重组,而不是省际迁移。
**4.4.1. 累积结果**
表8展示了截至2050年的累积情景结果。尽管各省人口轨迹相同,但不同政策情景之间存在显著差异。在趋势延续(基准情景BAU)下,出现事件(3341个电网)大致抵消了灭绝事件(3022个电网),导致2050年住宅电网净增加319个。这种平衡反映了2015-2020年数据中观察到的动态均衡:持续的居住前沿转变尽管人口减少,但仍保持了总体电网数量。集中型情景导致电网数量大幅减少,中等集中情况下住宅电网减少到51,097个(灭绝率为12.1%),极端集中情况下减少到43,906个(灭绝率为24.5%)。分散型情景产生中等和极端情景下的中间结果,灭绝率分别为4.4%和3.1%,显著低于集中情景,但高于趋势延续情景。
**4.4.2. 省际差异**
情景效应表现出明显的省际异质性,反映了现有定居结构的差异(表9,图5)。在极端集中情况下,农村省份的居住模式分散,灭绝率最高,包括全罗南道(39.9%)、江原道(34.3%)和庆尚北道(32.1%)。大都市地区由于预先存在的人口集中而基本不受影响,首尔(1.6%)、世宗(4.4%)和京畿道(6.6%)即使在极端集中情况下也表现出较低的敏感性。全罗南道和首尔之间的政策敏感性差距达到38个百分点,表明统一的国家集中政策将产生极不均衡的地区影响。
**4.5. 政策敏感性分析**
**4.5.1. 短期预测的局限性**
基于2015-2020年转变模式训练的第一阶段分类模型,在识别面临完全人口减少风险的电网方面取得了合理的预测性能。然而,5年的训练窗口可能无法完全捕捉到嵌入在年龄结构中的长期人口趋势。一个目前保持人口超过居住阈值的电网可能仍然表现出未来可能下降的人口特征,这些特征并未在短期转变中体现。为了评估这一问题,对被分类为持续存在的电网进行了潜在人口脆弱性的检测。根据既定的人口阈值定义了三个脆弱性指标:高老龄化比率(≥40%)、低潜在支持比率(劳动年龄人口与老年人口之比<2.0)和空间隔离(距离最近道路>1500米)。在57,670个被分类为持续存在的电网中,有42,509个(73.7%)至少具有一个脆弱性特征,表明大多数被预测为持续存在的电网显示出机器学习分类未能捕捉到的人口脆弱性迹象。这一发现促使人们开发了一种补充的脆弱性分类方法,将机器学习预测与人口结构评估相结合,从而能够识别出需要针对性干预以防止未来转变为灭绝的政策敏感电网。
**4.5.2. 对政策敏感电网的四类型分类**
开发了一种四类型敏感性分类框架,根据情景结果和人口结构来描述电网的脆弱性(表10)。该分类将2050年的趋势延续(基准情景BAU)下的居住状态与极端集中居住状态进行交叉分类,并进一步根据老龄化比率阈值(40%)对政策敏感电网进行细分。稳定型电网(75.3%)在趋势延续和极端集中情况下都保持居住状态,代表了具有足够人口规模和有利人口结构以抵御集中压力的地区。中等脆弱型电网(5.5%)仅在极端集中情况下才会转变为灭绝,其老龄化比率低于40%,表明可以通过经济发展或服务提供来干预。高脆弱型电网(14.0%)也具有政策敏感性,但其老龄化比率达到或超过40%,表明即使通过政策干预避免了灭绝,其自然恢复能力也有限。这些差异模式强调了需要同时评估情景结果和基线特征。中等脆弱性的网格因其对政策强度的高度敏感性而值得关注,而老龄化脆弱的网格则需要认识到无论政策选择如何,恢复过程都存在结构性限制。表10展示了四类政策敏感性分类。表11按脆弱性类型展示了不同情景下的灭绝率,量化了不同的政策敏感性。根据定义,中等脆弱性和老龄化脆弱的网格在极端集中情况下会100%灭绝,这一结果定义了它们的分类。主要发现是它们对中等集中程度的不同反应:中等脆弱性网格的灭绝率(46.5%)高于老龄化脆弱性网格(34.6%)。这一结果突显了人口规模在决定网格存活率中的主导作用。年轻人口但人口质量较低的网格更容易受到中等集中压力的影响,而老龄化网格可能具有稍高的人口基数,从而提供对抗灭绝的缓冲。然而,由于该框架不动态更新年龄结构,因此老龄化脆弱的网格在人口通过死亡率加速减少的情况下可能显得更具韧性。这促使了补充性的脆弱性分类,即使在这些网格的情景模拟中灭绝率较低,也需要特别关注。表11显示了按脆弱性类型和情景划分的灭绝率。政策敏感网格具有相似的物理环境——相比稳定网格,这些网格具有更高的森林覆盖率和更长的道路距离——但在经济和人口特征上有所不同(表12)。中等脆弱性网格保持了更高的人口数量和商业设施数量,而老龄化脆弱性网格则显示出最小的经济活动以及最高的老龄化比例。图6a展示了不同脆弱性类型在网格层面的空间分布。老龄化脆弱性网格(14.0%)集中在非大都市的农村地区,涵盖多样的地形环境,包括山区内陆(江原道、庆尚北道)、农业平原(忠清南道、全罗南道)以及远离省级城市中心的边缘地区。中等脆弱性网格(5.5%)的地理分布更为广泛,包括大都市周边的地区。已经灭绝的网格(5.2%)集中在人口流动率高的农村省份——庆尚北道(550个网格)、江原道(484个网格)和全罗南道(382个网格),表明这些地区面临独立于政策干预的人口减少压力。市级层面的汇总数据显示,不同市政区的政策敏感网格比例存在显著差异(图6b–d)。值得注意的是,老龄化脆弱性网格(图6c)和中等脆弱性网格(图6d)的空间模式不同,表明各市政区面临不同类型的人口挑战。
5. 讨论
5.1 方法学意义
两阶段机器学习框架表明,可以从空间人口协变量预测网格层面的人口转变,从而在政策实施前预先识别出易灭绝的区域。预测网格灭绝涉及固有的不确定性,特别是在农村环境中,人口减少是由多种相互作用的因素驱动的,包括经济机会、可达性、人口结构和因地区而异的政策干预[52,53],因此在预测和解释时都需要谨慎。第一阶段的分类大约识别了一半的实际灭绝案例(召回率=0.52)——这一表现虽然适中但有意义,远超随机基线的预期。不应将此视为局限性,灭绝概率地图具有关键的筛选功能:通过将预测的灭绝风险纳入人口分配权重,该框架防止将人口分配到居住可行性低的网格。这种方法扩展了之前依赖于队列组分账户的网格级别方法[24,28],无需明确的人口建模即可捕捉非线性协变量关系。变量重要性的模式为政策设计提供了实质性的见解。基线人口在两个阶段中的主导地位证实了现有居住结构中嵌入的人口动力强烈限制了未来轨迹,这与先前小区域预测研究的结果一致[22,23]。年龄队列的差异性尤为重要:45-64岁队列在预防灭绝方面显示出最高的重要性,这可能反映了通过住房所有权和当地社会纽带积累的居住稳定性,而儿童人口(0-14岁)则主导了人口规模的预测,表明年轻家庭预示着增长潜力而非居住的持续性。经济变量表现出不对称效应:员工数量在灭绝预测中的排名较低(第19位),但在人口规模预测中排名较高(第7位)。这表明就业机会吸引了更多人口进入人口已经稳定的网格,但无法防止人口稀少且人口结构不利的网格的灭绝。这些发现意味着无论采用何种政策方法——无论是人口保留、管理性迁移还是逐步过渡——干预设计都必须考虑每个地区的现有人口构成和社会经济条件[54]。情景分析显示了显著的政策敏感性。极端集中和趋势延续之间的约25个百分点的差异与日本的研究结果一致,其中紧凑型情景使零人口网格的数量相对基线增加了28%[27],表明东亚各地区的政策敏感性相似。在趋势延续下的出现-灭绝平衡——出现(3341个网格)大致抵消了灭绝(3022个网格)——反映了韩国从增长到下降的结构转型。目前的模式表明,人口重新分布发生在现有居住网络内部,而不是扩展居住边界,这是东亚各区域的增长后人口特征[1,3]。
5.2 政策意义
不应将情景结果解读为紧凑型发展本质上劣于分散型发展的证据。紧凑型政策可能实现战略性的基础设施整合和服务效率提升[55],这与韩国国家领土规划中提倡的紧凑型城市概念[56]一致,而分散型政策虽然保持了空间公平性,但人均服务成本更高。效率与空间公平性之间的权衡需要根据当地情况进行明确的政治讨论[56,57]。比较情景结果可以识别出政策敏感网格(19.5%),在这些网格中,分配选择决定了居住者的生存。按人口结构分类揭示,这些网格需要根据基线特征采取差异化策略。老龄化脆弱性网格(14.0%)表现出严重的老龄化问题,限制了传统保留策略的有效性;年轻人外迁与人口老龄化之间的自我强化关系加速了这些地区的下降轨迹[58]。可以考虑采取其他方法,如保持可达性的服务整合或管理性过渡规划。尽管人口较年轻,中等脆弱性网格(5.5%)对政策强度仍表现出较高的敏感性,表明通过经济发展或基础设施投资进行干预的潜力更大。各省之间的异质性进一步复杂化了政策设计。全罗南道与首尔之间的38个百分点差距强调了需要地区差异化方法而非统一的国家政策。这种空间差异表明可能需要采取地区差异化的策略。拥有发达城市中心的省份可能从将人口集中在服务可达区域的紧凑型发展中受益,而以分散型农村居住为主的省份可能需要政策来维持现有的居住网络,以防止广泛的网格灭绝,这与韩国的人口减少支持政策的大背景一致[7]。通过情景比较预先识别出易灭绝的区域为前瞻性规划提供了基础,而非被动应对。无论政策选择如何,面临人口减少的地区都需要持续关注基础设施维护、土地管理和服务提供[54]。通过识别在特定情景下面临灭绝风险的网格并描述其基线特征,该框架使政策制定者能够在实施前考虑相应的措施——基础设施适应、服务重组或土地使用转变规划。
5.3 局限性和未来方向
在解释这些结果时需要考虑几个局限性。机器学习模型面临时间限制。仅基于2015-2020年的五年过渡期进行训练可能无法捕捉到长期的人口动态或迁移模式的结构变化,且在经济条件、政策干预或人口制度变化的情况下,假设观察到的过渡模式将持续到2050年可能不成立。使用2010-2015年的数据进行回测显示了相似的模型性能(F1-macro:0.696,表A2),支持了十年时间尺度上的结构稳定性,但这并不能保证整个30年预测期的稳定性。网格层面的环境特征保持在2020年的基准值不变,而基础设施投资、土地使用变化和可达性改进会随时间改变网格特征。该框架也没有考虑突发的人口冲击——武装冲突、流行病或突然的经济危机——这些因素可能会改变超出历史模式的人口轨迹。情景框架还对人口重新分配做了一些简化假设。模型假设省内重新分配而不考虑跨省迁移反应,政策情景的分配方法关注现有居住网格之间的重新分配。1公里的网格分辨率可能掩盖了单元内部的异质性,特别是在都市周边地区,确定出现转变代表持续定居还是短暂波动需要跨多个普查时期的观察。该框架没有明确模拟相邻网格之间的空间自相关性,尽管可达性变量和空间隔离指标部分解决了这一限制(第4.5.1节),并且总体迁移动态通过韩国统计局的队列组分预测得出的省级人口限制得到反映[50]。更根本的是,当前框架没有模拟网格层面的队列老龄化进程或基础设施退出与居住决策之间的反馈机制。人口分布预测本质上涉及复杂的系统互动,包括特定队列的人口过程、跨越行政边界的人口流动以及基础设施、住房和经济活动之间的动态依赖关系[22,23]。这些局限性指出了未来研究的几个方向。空间分辨率对模拟结果的影响值得进一步研究[9],因为本研究中采用的1公里网格通过聚合捕捉了周围的土地使用情况,但可能掩盖了更细尺度的异质性。通过将环境协变量与土地使用变化模型相结合,可以动态更新这些特征[25,26],网格层面的输出也可以为土地使用转变规划和基于土地的碳管理提供信息[59,60]。网格层面识别出易灭绝的区域还提供了适用于更广泛规划领域(包括土地使用转变规划和基于土地的碳管理[59]以及未来的土地使用变化预测[60]的空间明确信息。最后,对经历类似人口转变的东亚国家进行比较分析可以增强该框架的普遍性。
6. 结论
本研究开发了一个两阶段机器学习框架,用于预测韩国1公里网格系统中的人口分布,并评估人口减少结果的政策敏感性。第一阶段的随机森林分类预测了网格状态转变(F1-macro = 0.694),而第二阶段的LightGBM回归预测了人口规模(R2 = 0.950)。模拟了直到2050年的五种空间发展情景,以量化分配政策如何影响居住网格的结果。研究结果表明,人口减少的空间分布显著受到政策影响。极端分散情况下的累积灭绝率为3.1%,而在极端集中情况下为24.5%,这25个百分点的差异完全归因于空间分配政策而非人口减少本身。趋势延续导致的净变化接近零(+0.5%),因为出现(3341个网格)大致抵消了灭绝(3022个网格),反映了韩国从增长到下降的结构转型特征。省份间的异质性明显,农村省份在极端集中情况下的灭绝率高达39.9%,而大都市地区基本不受影响。这种异质性表明,统一的国家集中政策会产生高度不均衡的空间影响,需要地区差异化的方法。在预测将继续作为居住区的网格中,73.7%的网格显示出短期预测未能捕捉到的人口脆弱性指标。比较情景结果可以预先识别出政策敏感网格(19.5%),在这些网格中,分配选择决定了居住者的生存。这些网格往往位于森林覆盖率较高的孤立环境中,并进一步分为两种不同的类型:老龄化脆弱性网格(14.0%)受到严重老龄化和脆弱经济基础的限制,而中等脆弱性网格(5.5%)尽管对政策强度敏感度较高,但仍保持了一些经济活动。该研究在三个方面为空间规划学术做出了贡献。首先,两阶段机器学习框架提供了一种可复制的方法,用于捕捉空间协变量与人口转变之间的非线性关系。其次,情景分析量化了政策敏感性,表明人口减少结果在很大程度上取决于空间发展选择,而不仅仅是人口必然性。第三,政策敏感性分类通过识别干预措施最能有效影响居住结果的地方,将预测建模与政策应用联系起来。随着韩国和其他东亚国家应对人口减少,空间规划必须从促进增长转向在现有居住网络内的战略收缩管理。然而,人口减少下的人口分布涉及复杂的系统互动,超出了任何单一框架的范围。这里提出的分析工具为识别政策敏感区域、比较不同的空间发展策略以及在人口减少和财政限制条件下优先考虑干预措施提供了基础。除了人口减少政策之外,网格层面识别出的易灭绝区域还提供了适用于更广泛空间规划挑战的空间明确信息,包括土地使用转变规划、碳管理和基础设施投资优先级。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号