基于数据的建模与通用航空系统安全理论的应用：从相关主题到因子分析及应用流程

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《RELIABILITY ENGINEERING & SYSTEM SAFETY》：Data-driven modeling and application of general aviation system safety theory: From topics to factor analysis and application processes

【字体：大中小】 时间：2026年04月24日 来源：RELIABILITY ENGINEERING & SYSTEM SAFETY 11

编辑推荐：

　　航空安全数据驱动双任务建模框架研究

庄子博|龚景伟|范家琛|侯永康|王磊

中国民用航空大学空中交通管理学院，天津，300300，中国

摘要

通用航空（GA）的安全屏障明显弱于商业运输航空，尤其是在复杂运营条件下的多因素耦合情况下。为了解决传统小样本分析的局限性以及新兴技术的“先验依赖性”，本研究提出了一种基于数据驱动的双任务建模框架（GA-SST），用于GA系统安全理论。该框架将改进的双向编码器表示（BERTopic）模型与人为因素分析与分类系统（HFACS）相结合，显著提高了大规模数据分析和解释能力。主题分析揭示了五个关键主题：失控、人机交互失败、恶劣天气、培训不足和飞行员特性。因果映射进一步揭示了一些关键风险因素：故意违反程序、安全意识和文化不足、安全监督不力、复杂条件下的的人机交互失败、部件故障、飞行员资格和培训管理不善以及空间感知能力差。此外，还开发了BERT-卷积神经网络-门控循环单元（BERT-CG）模型，以支持这些因果因素的实际应用。结果表明，GA-SST框架有效桥接了理论分析和数据驱动方法，从大量数据中提供了有价值且可操作的安全洞察。

引言

通用航空（GA）是指使用民用飞机进行除商业航空运输以外的其他飞行活动。根据《民用航空产业发展统计公报》，2019年至2023年间新增注册飞机596架，通用机场449个，期间共完成飞行小时数达581.7万小时。此外，过去十年发生了105起GA事故，并且这一趋势自2018年以来有所增加[1]。

航空事故报告包含了关于人为错误、设备故障、环境风险和管理系统缺陷的大量信息。航空事故的本质是多种因素相互耦合的结果[2]。识别导致事故的因素可以为建立预防性安全文化提供事实基础。这种方法有助于推动安全标准的动态发展。根据国际民用航空组织1970年至2022年的数据，多维因果识别显著降低了每百万次飞行的事故率，从3.5降至0.28。然而，GA领域内的安全屏障明显不足。例如，与商业航班相比，GA占航空运输事故总数的约82%，以及与航空运输相关死亡人数的83%[3]。2023年，通用航空记录了2087万飞行小时，事故率为每10万次飞行4.797起，人为因素占比78%（NTSB，2023年）。因此，从历史数据中提取因果因素至关重要，因为这些信息对于实施有针对性的干预措施以减轻经济损失和显著提高整体GA安全性至关重要。

传统的安全分析通常被概念化为“白盒”模型，其特点是高可解释性和推理过程的完全透明性。例如故障树分析（FTA）等方法已被应用于特定事件以量化因素贡献[5]，一个多世纪以来，这些因果模型的发展，包括人为因素分析与分类系统（HFACS）等系统理论方法，一直致力于创建结构化、逻辑化的框架[6,7]。然而，这些传统方法的一个根本局限性是它们依赖于小样本和大量的人工参与。这种依赖性导致数据利用率低、劳动成本高，且无法有效融合异构数据。

另一方面，这些模型在充分解释现代复杂社会技术系统方面存在局限性。它们在准确捕捉非线性交互特性方面也面临重大挑战，并且经常受到数据质量和过度人工参与的限制[8]。尽管像基于安全信息认知的人为因素分析（SICHFA）框架这样的扩展尝试通过考虑信息流将线性链扩展为动态网络，但对手动数据处理的根本依赖仍然是一个关键瓶颈[7]。

鉴于积累的事故报告数量庞大，我们希望采用数据驱动的方法提取关键的事故相关信息，并将其转化为可操作的安全洞察，以支持航空安全领域的决策制定。然而，由于航空事故报告的非结构化或半结构化特性，在这些数据中识别因果关系具有挑战性[9]。早期关于事故归因的研究集中在关联规则[10]、贝叶斯网络[11]和传统专家系统[12]的应用上。这些方法可以有效捕捉因果变量。然而，它们都有一个关键局限性：“预处理依赖性”。在实施这些方法之前，需要大量的人工干预和领域专业知识来分析非结构化文本报告[13]，这一过程可能会引入主观偏见。

为了克服这些局限性，一种新兴的数据驱动范式受到了更多关注，它提供了一种更深入的事故因果关系分析方法。这种范式强调需要超越小样本、线性假设，通过数据相关性发现潜在风险，并整合异构数据以进行更准确的预测[14]。特别是，文本挖掘技术被认为是一种能够处理大量非结构化数据的新解决方案[15]。最近的研究提出了复杂的方法，如将主题建模与N-K复杂系统理论相结合，以分析多因素交互并建立动态风险阈值[16]。尽管取得了这些进展，但仍有一个显著局限性：这些方法可以处理大数据，但往往无法在发现中建立因果关系。

本研究的动机在于填补这一空白。核心挑战在于开发一种能够在最小人工干预的情况下处理非结构化文本报告的新方法，同时建立识别元素之间的因果联系。我们的工作旨在开发这样的解决方案，从而实现航空安全分析的真正范式转变——从手动的小样本研究转向自动化、数据驱动和具有因果意识的方法。

在本文中，介绍了数据驱动的GA-SST建模和应用过程。我们首次提出了一种将大型语言模型和主题建模技术集成到HFACS分析框架中的解决方案。这种方法解决了传统方法中预处理依赖性和小样本建模的局限性，同时提高了主题建模的可解释性，并最终提供了一组因果因素。此外，我们将CNN-GRU模块集成到变压器（BERT）模型的双向编码器表示的注意力机制中，以执行特征融合和选择，使模型能够进行多标签分类。因此，所提出的模型最终有助于将原始报告结构化识别并自动提取为因果因素。

提出的方法论

本节解释了如何将改进的主题和分类技术应用于GA-SST建模。该过程分为三个阶段，如图1所示：数据准备、主题聚类和因果因素识别以及应用。在数据准备阶段，我们从原始报告中提取潜在的事故原因并进行预处理。第二阶段涉及改进的主题建模过程和HFACS因素映射。主题结果通过

数据来源

数据来自NTSB发布的航空事故调查报告，选自六个常见的事故类别，时间范围为2015年之后。具体的筛选标准见表3。

一方面，数据规模受到培训资源限制；另一方面，我们还考虑了事故类型的普遍性。因此，我们编制了2015年后不同事故类型的统计信息。

主题结果

尽管BERTopic模型能够自动确定主题数量，但为了确保实验结果的可重复性，随机种子数量和固定主题数量是预先设定的。然后使用方程（2）和（3）计算了不同主题数量的SC，结果如图10所示。

指标S在k=20时达到峰值，表明模型在这种特定配置下表现最佳。n_gram_range参数

结论

在本文中，我们旨在开发一种数据驱动的方法来构建系统安全的理论模型。这种方法侧重于克服传统方法的局限性，并能够智能识别GA领域的事故因果因素。主要任务包括识别事故主题、建立一组因果因素以及训练多标签分类模型。

我们的研究将AI知识库引入主题建模，增加了解释层

未引用的参考文献

[18,4,34,44]

CRediT作者贡献声明

庄子博：方法论、概念化。龚景伟：写作——原始草稿、可视化、方法论、数据管理。范家琛：验证、调查、数据管理。侯永康：方法论。王磊：写作——审稿与编辑、监督、概念化。

联系信箱：

粤ICP备09063491号

摘要

引言

相关研究

相关工作

提出的方法论

数据来源

主题结果

结论

未引用的参考文献

CRediT作者贡献声明

热点排行