基于多源数据和可解释机器学习的传统村落旅游发展潜力及其影响机制评估——以黄山市歙县为例

《Land》:Evaluation of Tourism Development Potential and Its Influencing Mechanisms of Traditional Villages Based on Multi-Source Data and Interpretable Machine Learning: A Case Study of Shexian County, Huangshan City, China

【字体: 时间:2026年06月09日 来源:Land 3.2

编辑推荐:

  在中国大力推进乡村振兴的背景下,传统村落已成为乡村旅游的重要载体,但其旅游发展潜力差异显著。以安徽省歙县182个传统村落为研究区域,研究人员整合了包括遥感、社会经济和在线数据在内的多源数据(Multi-Source Data)。从资源禀赋(Resource E

  
在中国大力推进乡村振兴的背景下,传统村落已成为乡村旅游的重要载体,但其旅游发展潜力差异显著。以安徽省歙县182个传统村落为研究区域,研究人员整合了包括遥感、社会经济和在线数据在内的多源数据(Multi-Source Data)。从资源禀赋(Resource Endowment)、社会经济条件(Socio-economic Conditions)和自然环境(Natural Environment)三个维度构建了评价指标体系。采用随机森林(Random Forest, RF)、XGBoost和LightGBM三种机器学习(Machine Learning, ML)模型测量旅游发展潜力(Tourism Development Potential),并通过比较分析选择了最优模型。在此基础上,引入SHAP(Shapley Additive Explanations)方法解释影响因素,揭示其作用方向和机制。结果表明:(1)LightGBM模型表现最佳,更适用于传统村落旅游发展潜力评价;(2)服务设施、土地资源和交通条件是最重要的影响因素,文化资源和在线关注也发挥显著作用;(3)不同因素的影响表现出明显的非线性特征(Nonlinear Characteristics)并存在交互效应(Interaction Effects);(4)旅游发展潜力的空间格局呈现“核心集聚—过渡分布—外围分散”的结构。本研究从多源数据和可解释机器学习(Interpretable Machine Learning)的视角,对传统村落旅游发展潜力进行了系统分析,为其差异化发展和保护提供了科学参考。
**论文解读:基于多源数据与可解释机器学习的传统村落旅游发展潜力评估及其影响机制——以安徽省黄山市歙县为例**

**研究背景与问题**
在中国乡村振兴战略推进下,乡村旅游成为促进农村经济转型和缩小城乡差距的关键途径。传统村落作为乡村振兴的重要载体,承载历史记忆、传统生产生活知识、文化艺术成就和鲜明地域特色,是不可替代的文化与旅游资源。然而,当前传统村落在旅游开发过程中普遍面临发展动力不足、旅游产品同质化、遗产景观退化等问题。部分村落虽拥有丰富文化资源,但因缺乏科学规划,优势未能有效转化为发展动能。因此,科学评估旅游发展潜力(Tourism Development Potential, TDP),识别资源禀赋(Resource Endowment, RE)、发展优势与制约因素,对传统村落保护与乡村旅游可持续发展具有重大意义。现有研究多聚焦于文化保护、旅游空间分布、旅游开发效应及乡村振兴路径,但往往存在尺度不精准(宏观评价难指导村级规划)、数据维度不充分(文化资源等指标量化不足)、方法深度不足(难以同时实现高预测精度与机制可解释性)等三大缺口。为此,研究人员以黄山市歙县182个传统村落为案例,整合多源数据,构建特色指标体系,并引入SHAP(Shapley Additive Explanations)可解释框架,旨在揭示影响机制的非线性特征、阈值效应及情境异质性,为差异化保护与发展政策提供透明、可追溯的科学依据。该论文发表在《Land》期刊。

**关键技术方法概述**
研究人员整合了多源数据集,涵盖资源禀赋、社会经济条件和自然环境三大维度。数据来源包括:歙县文化旅游体育局提供的文化遗产数据、传统村落名单及政策文件;高德开放平台2025年POI(兴趣点)数据(交通、旅游服务类);2014—2025年微博地理标记签到数据(在线关注度);OpenStreetMap(OSM)路网和水系数据;中国科学院资源环境科学数据中心、国家青藏高原数据中心及地理空间数据云平台的NDVI(归一化植被指数,30m分辨率)、DEM(数字高程模型,30m分辨率)、GDP(1km分辨率)等栅格数据集。所有空间数据统一至WGS 1984 UTM坐标系,以行政村为单元,通过ArcGIS 10.2和Python 3.9进行分区统计与空间连接处理,Z-score标准化后构建特征数据集。采用随机森林(RF)、XGBoost和LightGBM三种集成学习模型进行潜力预测,通过混淆矩阵、准确率、精确率、召回率、F1分数和AUC(ROC曲线下面积)等指标比较性能,选出最优模型。引入SHAP方法进行全局与局部解释,量化各特征贡献及交互效应。

**研究结果**
**3.1 评价指标相关性分析**
通过Pearson相关分析发现,服务设施(r=0.79)、交通设施(r=0.72)、文化资源指数(r=0.62)与旅游发展潜力显著正相关;NDVI(r=?0.60)和海拔(r=?0.41)显著负相关。指标间相关系数绝对值多低于0.8,无严重多重共线性,满足建模要求。

**3.2 模型性能比较**
在7:3训练测试集划分及Optuna超参数优化下,LightGBM模型AUC值最高(0.975),优于RF(0.953)和XGBoost(0.962),且各类别分类更均衡,尤其在识别高潜力村落方面表现更优。五折交叉验证进一步证实其稳健性与泛化能力,因此选用LightGBM进行后续SHAP分析。

**3.3 旅游发展潜力空间格局**
LightGBM模型输出的潜力空间分布呈现“双核集聚—梯度过渡—外围分散”格局。高潜力村落主要集中于西部谷地及东部新安江流域,形成西北集群(如上丰、宋口)和东部集群(如庄川、高峰),这些区域交通便利、徽派建筑资源丰富、服务设施较完善。中潜力村落位于两核心之间的过渡带,具备一定资源或交通优势但受服务或土地制约。低潜力村落散布于南部和西南部山区,可达性差、文化资源有限、基础设施薄弱。

**3.4 特征重要性分析**
**3.4.1 特征重要性排序**
基于SHAP值的特征重要性排序显示:服务设施(0.260)、土地资源指数(0.184)、交通设施(0.157)位居前三;文化资源指数(0.127)、在线关注(0.102)、政策支持指数(0.079)次之;海拔、气温、空气质量等自然因素重要性低于0.05;GDP、降水、水系密度低于0.02。

**3.4.2 全局SHAP解释**
全局SHAP图表明,服务设施、土地资源指数、交通设施等指标的高值对应正SHAP值,呈正向促进效应;在线关注也呈正相关。按类别汇总,资源禀赋贡献占84.2%,社会经济条件占8.7%,自然环境仅占7.1%,说明资源条件和基础设施水平是主要驱动力。

**3.5 关键变量的SHAP关联模式**
**3.5.1 旅游发展准备度相关关键变量**
服务设施、交通设施、在线关注均呈现明显正相关关系。服务设施达到一定阈值后SHAP值显著升高;交通设施数量增加持续提升可达性;在线关注度高时对应更高预测潜力,如歙县渔梁村因完善的服务设施和网络曝光表现出高潜力。

**3.5.2 资源禀赋因素**
文化资源指数呈正向关系,高文化资源村落(如棠樾村)SHAP值显著提高;土地资源指数也呈正向但趋势较平缓,反映对旅游设施空间承载力的影响。

**3.5.3 自然环境约束因素**
海拔呈负相关,高海拔地区因可达性差、开发成本高而约束旅游发展潜力。

**3.6 基于SHAP的交互关联分析**
**3.6.1 服务设施与在线关注的交互**
存在阈值型协同效应:服务设施低时,在线关注难以转化为潜力;服务设施中等以上时,高在线关注样本SHAP值迅速上升(如花语村)。

**3.6.2 交通设施与在线关注的有限交互**
交通极端差时,在线关注无法提升潜力;交通中等时高关注样本略高,但替代效应有限(如石潭村)。

**3.6.3 土地资源与服务设施的空间关联**
土地资源低时,服务设施提升效果受限;土地资源中等时,服务设施促进作用最显著(如阳产村、棠樾村)。

**3.6.4 土地资源与在线关注的弱交互**
两者呈平行分布,在线关注不显著改变土地资源的影响趋势,属于不同维度因素。

**3.6.5 文化资源与服务设施的贡献模式差异**
文化资源低时设施提升效果有限;文化资源高时高服务设施样本SHAP值快速增长(如叶村、渔梁村),说明高水平文化资源需配套服务设施才能充分释放价值。

**3.6.6 文化资源与政策条件的交互**
文化资源中等时,政策支持可促进资源开发利用;文化资源极高时,政策边际效应减弱(如棠樾村)。

**讨论与结论**
**讨论总结**:研究发现服务设施、土地资源、交通条件对旅游发展潜力的影响显著强于传统自然环境因素,这反映出乡村旅游正从资源依赖型向服务能力导向型转变。在线关注的作用具有条件依赖性:仅在基础设施完善时才能有效放大潜力,属于放大机制而非独立驱动力。空间分布的高潜力集群表明区域协同发展优于单体村落开发。方法论上,LightGBM–SHAP框架能有效识别非线性阈值效应与交互机制,较传统线性方法更适用于复杂旅游系统。规划启示方面,根据潜力高低将村落分为成熟发展型、转型提升型和约束保护型,分别采取质量优化、设施补短板和低强度保护式开发等差异化策略。研究也存在局限:截面数据未捕捉动态演化;在线关注指标易受短期事件波动;指标选择存在一定主观性;部分自变量与标签存在概念重叠,结果应视为预测关联而非因果推断。

**研究结论翻译**:本研究通过整合多源数据集,应用LightGBM模型结合SHAP可解释性分析,构建了歙县传统村落旅游发展潜力的多维评价框架。结果表明,LightGBM在三种机器学习模型中整体预测性能最优,表现出更强的稳健性以及识别非线性关系和空间异质性的能力。旅游发展潜力的空间分布呈现明显的集聚特征,形成“核心集聚—过渡分布—外围分散”的格局。高潜力村落主要集中在新安江沿岸和西北谷地,这些区域交通可达性、文化资源和旅游服务系统显示出较强的空间连续性,为一体化旅游廊道建设和集群式旅游发展提供了有利条件。方法论上,本研究进一步证明了可解释机器学习方法在旅游空间评价与发展机制分析中的适用性。LightGBM–SHAP框架较传统线性评价方法能更有效地识别旅游发展因素间的非线性关系、阈值效应和交互机制。但仍存在若干局限性,包括采用截面数据以及指标选择的潜在不确定性。未来研究可纳入多时期数据集,并探索特征选择方法和轻量化建模框架,以提升模型在数据稀缺环境中的可迁移性和适用性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号