在数据缺失的情况下预测致命的直升机事故:数据插补方法是否会影响分类性能和特征解释?
《RELIABILITY ENGINEERING & SYSTEM SAFETY》:Predicting fatal helicopter accidents with missing data: Do data imputation methods affect classification performance and feature explanation?
【字体:
大
中
小
】
时间:2026年05月27日
来源:RELIABILITY ENGINEERING & SYSTEM SAFETY 11
编辑推荐:
岳周|传云福|林伟|成龙李|翁刚周|刘海月摘要直升机通常在复杂的环境中运行,其事故报告中的信息表常常存在数据缺失的问题。然而,针对表格数据的插补技术很少应用于航空事故数据,这导致在了解插补方法的选择如何影响事故死亡人数预测和解释方面存在知识空白。本研究从美国国家运输安全委员会(N
岳周|传云福|林伟|成龙李|翁刚周|刘海月
摘要
直升机通常在复杂的环境中运行,其事故报告中的信息表常常存在数据缺失的问题。然而,针对表格数据的插补技术很少应用于航空事故数据,这导致在了解插补方法的选择如何影响事故死亡人数预测和解释方面存在知识空白。本研究从美国国家运输安全委员会(NTSB)的数据库中收集了直升机事故数据,并对这些事故的特征进行了分析,同时记录了原始数据中的缺失情况。研究采用了七种插补方法,包括模式插补、基于逻辑回归/随机森林的链式方程多变量插补、支持向量分类器、CatBoost、生成对抗网络(GAIN)以及表格先验数据拟合网络(TabPFN)。通过人工生成的缺失值来评估这些插补方法的质量。随后使用插补后的数据集训练五种分类器(KNN、XGBoost、CatBoost、随机森林和TabPFN),以预测致命事故。本研究还提出了一个框架,用于在预测质量和解释稳定性两个方面综合考虑,从而选择最佳的特征解释器。结果表明,飞行员约束措施、飞行员性别和风速等特征具有最高的原始数据缺失率。TabPFN插补方法的插补精度最高。致命事故的预测性能主要取决于所使用的分类器,而非插补方法本身。不过,插补方法或分类器与插补方法的组合方式会影响通过Shapley加性解释(SHAP)值估算出的特征重要性。在各种分类器与插补方法的组合中,TabPFN分类器与TabPFN/SVC/MICE+RF插补器的组合表现最佳;而XGBoost分类器与TabPFN插补器的组合则成为最佳的特征解释器。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号