基于SHAP的可解释多类物联网入侵检测的注意力融合深度学习模型

《Frontiers in Artificial Intelligence》:Attention integrated deep learning models for interpretable multi-class IoT intrusion detection using SHAP

【字体: 时间:2026年06月03日 来源:Frontiers in Artificial Intelligence 4.7

编辑推荐:

  物联网(IoT)的快速增长增加了网络流量的规模、复杂性和脆弱性,使得入侵检测成为现代网络安全的关键因素。传统的入侵检测系统(IDS)分析手工设计的特征和规则来检测新兴的攻击模式。为解决这些局限性,研究人员分析了注意力增强的一维(1D)卷积神经网络(CNN)、长

  
物联网(IoT)的快速增长增加了网络流量的规模、复杂性和脆弱性,使得入侵检测成为现代网络安全的关键因素。传统的入侵检测系统(IDS)分析手工设计的特征和规则来检测新兴的攻击模式。为解决这些局限性,研究人员分析了注意力增强的一维(1D)卷积神经网络(CNN)、长短期记忆(LSTM)和门控循环单元(GRU)等深度学习框架,以实现准确且高效的多类攻击检测。提出的注意力增强一维卷积层提取判别性空间特征,同时聚焦于网络流中最相关的模式。LSTM和GRU架构分析序列流量数据中存在的长程时间依赖性,从而能够稳健地识别细微异常。该模型在两个数据集上进行了评估:黑客与对策研究实验室(HCRL)数据集和Kitsune物联网数据集,它们代表了真实世界的不同良性及恶意流量条件。实验结果表明,注意力增强一维CNN在Kitsune和HCRL数据集上分别达到了98%和87%的最高性能。基于SHapley Additive exPlanations(SHAP)的可解释性分析展示了单个特征如何对预测做出贡献,突出了驱动入侵检测决策的最重要特征。结果证实,引入注意力机制显著增强了判别能力,使得对复杂物联网攻击类型的分类更加可靠。提出的方法通过结合空间和时间深度学习组件,有效解决了物联网入侵检测中的关键挑战,适用于部署在智能实时物联网网络安全系统中。
**论文解读文章**

**研究背景与问题**

随着物联网(IoT)设备的广泛部署,网络流量的规模、复杂性和安全脆弱性急剧增加,网络入侵检测成为现代网络安全的关键环节。传统的入侵检测系统(IDS)通常依赖手工设计的特征和规则来识别攻击模式,但在应对动态、多样的物联网环境时,传统系统难以实时处理不确定性,且无法有效检测新型或复杂攻击。现有研究已提出多种机器学习(ML)和深度学习(DL)方法,如混合卷积神经网络(CNN)与循环神经网络(RNN)的结构,但在多类攻击检测中仍面临特征提取不充分、长程时间依赖建模不足、模型可解释性差等问题。为此,研究人员旨在开发一种融合注意力机制的深度学习框架,结合空间与时间特征学习,并引入SHapley Additive exPlanations(SHAP)进行可解释性分析,以提升物联网入侵检测的准确性与透明性。该论文发表在《Frontiers in Artificial Intelligence》。

**主要技术方法**

研究人员采用三种深度学习架构:注意力增强一维卷积神经网络(1D CNN)、长短期记忆网络(LSTM)和门控循环单元(GRU)。注意力增强1D CNN通过通道注意力和空间注意力模块增强特征表示,无需传统池化操作,保留细粒度时间模式。LSTM和GRU分别通过门控机制捕获序列流量中的长程时间依赖。模型在HCRL(黑客与对策研究实验室)和Kitsune两个物联网入侵检测数据集上进行训练与评估,数据集包含多种攻击类型(如DoS、Mirai、Fuzzing等)。使用Adam优化器、学习率0.001、批量大小128,训练50轮,采用20%-30%的Dropout防止过拟合。可解释性通过SHAP实现,量化各特征对预测的贡献。

**研究结果**

**4.1 实验设置**:实验在Windows 10系统(Intel i7-1165G7处理器,8GB RAM,NVIDIA GeForce MX330显卡)上进行,开发语言为Python。

**4.2 数据集描述**:HCRL数据集包含约290万数据包,包括正常、DoS和Mirai三类;Kitsune数据集包含超过2700万样本,涵盖9种攻击类型(如Fuzzing、OS扫描、SYN DoS等),每个样本有115个统计特征。

**4.3 超参数调优**:通过调整Dropout率、轮数、批量大小等超参数,最终确定学习率0.001、批量大小128、训练50轮。

**4.4 评估指标**:采用准确率、精确率、召回率、F1分数和混淆矩阵评估多类分类性能。

**4.5 模型训练与验证**:三个模型均使用Adam优化器训练,注意力增强1D CNN收敛更快且准确率更高;LSTM和GRU在具有序列模式的攻击上表现良好。数据集按80:20划分训练/测试,10%训练数据用于验证,采用分层抽样保持类别分布。

**4.6 性能分析**:在HCRL数据集上,注意力增强1D CNN总体准确率87%,对DoS和Mirai类召回率达0.95和1.00,但良性类召回率较低(0.08)。引入类别权重和早停后,良性类召回率提升至0.96,MCC达到0.66。在Kitsune数据集上,注意力增强1D CNN准确率96%,在多数攻击类别上F1分数高于0.90,而LSTM(90%)和GRU(93%)在某些类别上完全失效。注意力增强1D CNN展现了最优的平衡检测能力。

**4.7 可解释AI特征**:通过SHAP解释模型预测,量化每个特征(如包长度、协议类型、IP地址八位字节)对各类预测的贡献。SHAP摘要图显示正/负贡献,帮助识别最影响决策的流量属性。

**4.8 与现有模型比较**:与Logistic回归(79%)、HSAFS-OCAE(93.44%)、混合自编码器-ResNet-LSTM(94.9%)、VAE-WGAN+LSTM+MSCNN(83.45%)、Big Data+LSTM NIDS(93%)等方法相比,注意力增强1D CNN在Kitsune(96%)和HCRL(87%)上表现更优。

**5 合成流量模拟器的实时泛化**:构建合成流量模拟器(5000个数据包流,每批100个),评估正常(30%攻击率)、受攻击(60%攻击率)、概念漂移(40%攻击率,特征分布偏移)三种场景。在HCRL数据集上,模型准确率仅0.14-0.36,表明合成分布与训练分布差异大;推理延迟64-80ms/批,适合实时IDS。在Kitsune数据集上,正常场景准确率约0.70,受攻击场景降至0.40,概念漂移场景恢复至0.59-0.60,推理延迟84.56-123.23ms/批。注意力增强1D CNN延迟最低且最稳定(均值68.64ms)。

**讨论与结论**

本研究提出了一个综合性的入侵检测框架,包含注意力增强一维CNN、LSTM和GRU架构,用于物联网环境中的鲁棒多类攻击检测。注意力增强1D CNN通过卷积层与通道、空间注意力模块结合,选择性关注输入流量中最具信息量的时间和统计属性;LSTM和GRU有效捕获序列依赖和时间相关性。SHAP-based可解释性增强了系统透明度,为网络安全分析师提供特征贡献洞察。实验结果表明,注意力增强1D CNN在Kitsune(96%)和HCRL(87%)数据集上性能最佳,且具备良好的泛化能力。该研究贡献了一个可解释、高效、可扩展的深度学习入侵检测模型,适用于真实物联网网络安全应用。未来工作应扩展模型以处理更大规模、更多样化的网络环境(包括加密流量和物联网特定流量),集成Transformer或图学习架构以增强长程依赖检测,以及通过合成数据生成或增强注意力机制改善类别不平衡问题。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号