基于地理信息系统与机器学习及空间聚类技术的道路交通事故热点检测:HDBSCAN算法应用研究

《Geographies》:Road Traffic Accident Hotspot Detection: A GIS-Based Machine Learning Approach Using HDBSCAN and Spatial Clustering Techniques

【字体: 时间:2026年06月10日 来源:Geographies 1.7

编辑推荐:

  本研究旨在运用地理信息系统(Geographic Information System, GIS)与机器学习相结合的方法,探究印度锡尔杰里市道路交通事故(Road Traffic Accidents, RTA)的时空分布特征与热点动态演变规律。锡尔杰里市作为连

  
本研究旨在运用地理信息系统(Geographic Information System, GIS)与机器学习相结合的方法,探究印度锡尔杰里市道路交通事故(Road Traffic Accidents, RTA)的时空分布特征与热点动态演变规律。锡尔杰里市作为连接印度东北部与周边国家的重要跨国交通走廊,其交通安全问题具有重要的区域研究价值。研究人员收集了2021至2023年间经过地理编码的道路交通事故数据,采用综合性GIS空间分析方法进行系统研究。在时间维度上,运用Kulldorff纯时序扫描统计量(Purely Temporal Scan Statistics)识别事故聚集的时间模式;在空间维度上,采用核密度估计(Kernel Density Estimation, KDE)方法量化不同时段(早高峰、午间/非高峰、晚高峰及夜间/低谷时段)的事故密度空间分布。此外,研究还综合运用空间局部自相关分析(Local Indicators of Spatial Association, LISA-Moran’s I)、纯空间扫描统计量(Purely Spatial Scan Statistics)以及层次密度噪声空间聚类应用算法(Hierarchical Density-Based Spatial Clustering of Applications with Noise, HDBSCAN)等多种空间聚类方法,从不同分析视角探究事故聚集模式。为捕捉热点时空演变特征,研究采用新兴热点分析(Emerging Hotspot Analysis, EHA)方法检测事故热点的动态变化趋势。研究结果表明,主要事故热点集中于Hill Cart Road、Darjeeling More、Sevoke Road、Eastern Bypass及Burdwan Road等关键交叉口和交通走廊区域。Moran’s I指数(0.157;p = 0.007)显示研究区存在显著的中等程度空间自相关性,空间扫描统计量识别出三个主要高风险区域。HDBSCAN算法将81.90%的事故点归入聚类区域,夜间/低谷时段事故密度最高,关键交叉口达到14.21起/km2。上述研究结果凸显了整合GIS与机器学习技术在城市交通安全规划及热点导向型干预策略制定中的重要应用价值。
## 研究背景与问题提出

道路交通事故已成为全球性公共卫生问题,尤其在快速城市化国家中,其造成的死亡、伤害及经济损失尤为严重。据世界卫生组织统计,全球每年约有135万人死于道路交通事故,该死因已成为5至29岁年龄段人群的首要 developer 首位致死因素。值得注意的是,低收入和中等收入国家虽仅拥有全球约60%的汽车保有量,却承担了92%的道路死亡事故。印度作为典型代表,2021年报告的道路交通事故超过40万起,死亡人数逾15万,道路交通死亡率高达每10万人14.6人。锡尔杰里市地处印度西孟加拉邦大吉岭地区,被称为"印度的鸡脖子",是连接印度东北部各邦与本土的关键地缘战略通道,同时承担跨国贸易与运输枢纽功能。该市交汇NH10、AH2、NH31等多条国道,毗邻不丹、孟加拉国和尼泊尔边界,交通流量庞大且构成复杂,使其成为研究道路交通事故时空模式的理想区域。

既有研究在事故热点检测方面已积累了丰富经验,但多采用单一方法,难以全面捕捉快速城市化地区事故聚集的复杂异质性特征。传统热点分析与核密度估计方法虽能有效可视化事故浓度,但对带宽选择敏感且易忽视局部空间依赖性;Moran’s I与LISA虽能检测空间自相关与局部聚类,却难以识别不规则或密度变异较大的聚类;扫描统计量虽具有统计严谨性,但受限于预定义的扫描窗口形状。因此,构建整合多种技术的对比分析框架,对于全面理解城市交通事故时空动态具有重要意义。本研究发表于《Geographies》,旨在填补这一方法论空白,为锡尔杰里市及同类城市的交通安全管理提供科学依据。

## 主要技术方法

研究采用的技术方法体系包括以下核心环节:数据来源于锡尔杰里都市警察局2021至2023年官方登记的315起道路交通事故记录,包含完整的空间坐标(经纬度)和时间信息,道路网络数据源自OpenStreetMap,行政区划边界来自锡尔杰里市政公司。时间分析采用SaTScan v.10.1.2软件执行Kulldorff纯时序扫描统计,以1个月为聚合单元,进行999次蒙特卡洛模拟。空间密度分析运用ArcGIS Pro 3.3.0进行核密度估计,采用二次核函数,栅格单元为30米。空间聚类分析综合三类方法:LISA-Moran’s I空间自相关分析、SaTScan纯空间泊松扫描统计(999次蒙特卡洛模拟),以及基于投影坐标系(WGS-84 Datum UTM Zone 45N)的HDBSCAN机器学习聚类(最小聚类规模7,最小样本数经迭代优化)。时空演变分析采用新兴热点分析工具,以季度为时间步长erequisite,空间连接距离200米,整合Getis-Ord Gi*统计量与Mann-Kendall趋势检验。

## 研究结果

### 纯时序分析

采用离散泊松模型的回顾性纯时序扫描分析发现,2022年2月至8月存在一个时间聚集,包含80起事故,期望值为59.78,相对风险为1.45,对数似然比为3.906564,但该聚集未达到统计显著性水平(p = 0.246,蒙特卡洛排序51/204)。这表明该时段的事故增长可能源于随机波动,而非系统性风险激增,整体时间分布相对均匀。

### 分时段事故密度分析

核密度估计揭示了不同时段的事故密度空间分异特征。早高峰时段(8:01-11:00),事故密度为1.61-3.85起/km2,AH2与Burdwan Road交叉口最为危险,占该时段事故的12.20%,Hill Cart Road近Darjeeling More及Sevoke Road近Salugara More为主要风险点,前十大显著位置集中了51.22%的事故。午间非高峰时段(11:01-16:00),密度峰值升至Hill Cart Road与Burdwan Road交叉处的8.05起/km2,NH10近Champasari More及Sevoke Road检查站等商业活动区事故上升。晚高峰时段(16:01-20:00),Hill Cart Road和AH2近Darjeeling More至Siliguri Junction段密度达6.46起/km2,占该时段16.13%的事故。夜间低谷时段(20:01-次日8:00),密度显著最高,Venus More与Court More交叉口达14.21起/km2,占13.53%的事故,该时段67.67%的事故集中于显著位置,可能与能见度降低、车速加快及驾驶疲劳等因素相关。

### 空间聚类多方法比较

**LISA与Moran’s I分析**:全局Moran’s I为0.157,Z值为3.2541,p = 0.007,表明存在显著的中等正向空间自相关。研究识别出19个高-高聚类(热点)、7个低-低聚类(冷点)及23个异常值。高-高聚类主要分布在Hill Cart Road和AH2近Darjeeling More至Siliguri Junction沿线、Sevoke Road的Salugara和检查站交叉口、Noukaghat More、Eastern Bypass近Ashighar More及Burdwan Road等区域。

**纯空间扫描统计**:识别出3个具有统计显著性的主要高风险区。集群1覆盖Ward 45、2和46,人口约51,993,观察到67起事故(期望值32.01), relation 相对风险2.39,对数似然比16.75,p = 0.000033,涵盖Hill Cart Road、AH2、Champasari Road和Nivedita Road。集群2位于市中心Ward 11、12、10和6,人口15,247,29起事故(期望值9.39),相对风险3.30为最高,对数似然比13.74,p = 0.000051,包含Burdwan Road、Hill Cart Road、Sevoke Road和Bidhan Road。集群3位于Ward 42的Sevoke Road沿线,人口19,139,32起事故(期望值11.78),相对风险2.91,对数似然比12.44,p = 0.00017。

**HDBSCAN聚类**:识别出8个聚类,轮廓系数0.583,Davies-Bouldin指数0.533,Calinski-Harabasz指数439.29,81.90%的事故点被归入聚类,18.10%列为噪声点。46.98%的聚类概率高于0.90,主要分布于NH10近Darjeeling More至Checkpost More、Sevoke Road、Eastern Bypass、Noukaghat More、Bhanumati Road、DBC Road及S.F. Road等高交通流量区域。多数点的隶属概率超过0.95,表明聚类结果具有高置信度。

### 新兴热点时空分析

新兴热点分析(p = 0.007)识别出五类热点模式:新发型热点沿Hill Cart Road、Sevoke Road、S.F. Road、AH2和Ashighar Road分布,提示事故新近集中区域;连续型热点占比53.5%,为最主要类型,分布于几乎所有主要交叉口和道路,反映持续高风险;增强型热点仅占4.0%,位于Venus More和Noukaghat交叉口,事故频率和 severity 严重性呈加剧趋势;持续型热点占10.1%,集中于Venus More、Salugara More和Champasari等长期事故多发区;偶发型热点占22.2%,散布于连续热点沿线,呈间歇性暴发特征。

## 讨论与结论

本研究通过整合GIS空间分析与机器学习技术,系统揭示了锡尔杰里市道路交通事故的时空聚集规律。HDBSCAN算法在识别不规则、变密度聚类及概率化聚类隶属方面展现出独特优势,其噪声识别能力与高精度聚类结果使其成为复杂城市环境中事故热点检测的有力工具。与传统方法相比,HDBSCAN无需预定义聚类数量,能够自适应处理不同密度的空间数据,这一特性对于地形复杂、交通流量异质性强的城市尤为重要。

研究结论指出,锡尔杰里市主要道路交通事故热点集中于Hill Cart Road、Sevoke Road、Eastern Bypass、AH2及其他高交通量商业交叉口等关键交通走廊和交叉口区域。分析进一步揭示了显著的聚类模式和不同时间段的热点动态演变特征,夜间和低谷时段观察到更高的事故密度。在技术方法层面,HDBSCAN在识别不规则和变密度事故聚类方面表现出有效性,同时能够提供概率化聚类隶属和噪声点识别,凸显了其适用于复杂城市交通环境的特性及其在未来GIS交通事故安全研究中的应用潜力。研究强调,在高风险交通走廊和商业交叉口实施基于位置和时间敏感性的交通安全干预措施至关重要。识别出的热点模式可为城市规划者、交通主管部门和交通管理机构在事故多发区域的 priority 优先基础设施建设、交通监控和针对性道路安全策略制定方面提供支持。此外,本研究采用的整合分析框架对于评估其他面临复杂交通动态和 growing 持续增长交通压力的快速城市化城市的道路交通事故热点具有潜在应用价值。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号