面向物联网的可解释入侵检测：一种用于深度特征选择的CNN-BiLSTM排列重要性框架

《Frontiers in Big Data》：Interpretable intrusion detection for IoT: a CNN-BiLSTM permutation importance framework for deep feature selection

【字体：大中小】 时间：2026年05月22日 来源：Frontiers in Big Data 2.3

编辑推荐：

　　在工业物联网（IIoT）环境中，工业入侵检测系统（IDS）必须解决处理多特征时间相关网络流量和攻击模式动态变化的问题。传统的基于过滤器的特征选择方法（如互信息（MI））仅考虑单个特征的表现，可能在处理非线性特征依赖关系时效果不佳，这可能会降低检测性能，特别是在

在工业物联网（IIoT）环境中，工业入侵检测系统（IDS）必须解决处理多特征时间相关网络流量和攻击模式动态变化的问题。传统的基于过滤器的特征选择方法（如互信息（MI））仅考虑单个特征的表现，可能在处理非线性特征依赖关系时效果不佳，这可能会降低检测性能，特别是在类别不平衡问题中。为缓解此类挑战，研究人员提出了一种深度特征选择（DFS）框架，该框架利用混合卷积神经网络（CNN）和双向长短期记忆（BiLSTM）模型。所提出的框架使用排列重要性评估原生特征的重要性。在该框架中，CNN模型检测数据中的局部特征，而BiLSTM模型检测数据中的双向时间特征。特征的重要性是通过使用对单个特征的时间感知扰动来评估模型性能下降来计算的。这些被识别出的最相关特征随后被用于训练轻量级传统机器学习模型，如决策树、K近邻（KNN）、逻辑回归、朴素贝叶斯和随机森林，这使其易于部署在资源受限的IIoT环境中。该方法在CIC IIoT 2025数据集上进行了测试。从实验结果来看，很明显，与其他特征选择方法（如MI）相比，CNN-BiLSTM DFS框架提高了召回率和F1分数，这在不平衡设置中尤其明显。将特征选择从离线和为边缘侧推理解耦，提供了现实世界IIoT设置中检测准确性、鲁棒性和可部署性之间的平衡。

论文解读：面向物联网的可解释入侵检测——一种基于CNN-BiLSTM排列重要性的深度特征选择框架

研究背景与意义

随着互联网和互联数字框架的扩展，网络威胁的复杂性和影响显著增加。现代数字框架极易受到各种网络攻击（如分布式拒绝服务僵尸网络、侦察任务和恶意软件）的影响，这些攻击可能影响关键和工业过程。在工业物联网（IIoT, Industrial Internet of Things）环境中，这一问题更加复杂，其中大量传感器、控制器和设备作为单一网络连接。生成的流量数据包含许多具有相关性和时间依赖关系的特征，需要考虑适当的特征以实现高效检测。IIoT环境中的入侵检测系统（IDS, Intrusion Detection System）应能够以计算效率最高的方式表示特征之间的关系并识别攻击的时间模式，以便部署在边缘或近边缘设备上。近年来，人工智能（AI）特别是深度学习（DL, Deep Learning）在IDS中显示出巨大潜力，因为深度学习能够揭示巨大数据集中的复杂和错综复杂的关系和模式。卷积神经网络（CNN, Convolutional Neural Network）和长短期记忆（LSTM, Long Short-Term Memory）是最常用于揭示网络数据特征关系和攻击时间模式的深度学习技术。然而，基于深度学习的IDS虽然在检测网络数据中的攻击方面非常有效，但它们主要面临计算和特征级透明度问题以及部署困难。为缓解这些挑战，研究人员使用特征选择（FS, Feature Selection）技术来提高IDS的效率。传统的特征选择技术研究确定了两种主要技术，即过滤法和包装法。过滤法（如互信息（MI, Mutual Information））计算效率高，但仅考虑单个特征，未能考虑高阶非线性交互，且不考虑数据中的时间依赖关系（这在IIoT环境中很常见）。为解决这些问题，研究人员开展了本研究，提出了一种深度特征选择（DFS, Deep Feature Selection）框架，该框架利用CNN-BiLSTM模型结合排列重要性（Permutation Importance）进行特征选择。该论文发表在《Frontiers in Big Data》。研究表明，所提出的CNN-BiLSTM DFS框架在召回率和F1分数上优于其他特征选择方法（如MI、单独的CNN和单独的BiLSTM），尤其是在不平衡设置中。通过将离线深度特征选择与在线推理解耦，该框架在现实IIoT设置中实现了检测准确性、鲁棒性和可部署性之间的平衡，对资源受限的IIoT环境具有重要意义。

主要关键技术方法

研究人员使用了来自加拿大网络安全研究所（CIC）的CIC IIoT 2025数据集，该数据集包含685,671个实例和94个属性，涵盖约58.44%的良性数据和41.56%的攻击数据，涉及侦察、拒绝服务（DoS）、分布式拒绝服务（DDoS）、中间人、Web利用、暴力入侵和恶意软件等攻击场景。关键技术方法包括：1. 数据预处理与临时编码：移除泄漏和不相关特征，使用中位数插补处理缺失值，可选地使用基于四分位距（IQR）的封顶法处理异常值，对所有数值特征进行归一化，按70%和30%分层划分为训练集和测试集，使用滑动窗口技术（窗口大小W=10）将表格数据转换为重叠序列以纳入时间依赖关系。2. 深度特征选择（DFS）阶段：构建混合CNN-BiLSTM模型，CNN部分使用一维卷积层（64个过滤器，内核大小3，ReLU激活，最大池化大小2）提取窗口内的局部特征交互，BiLSTM层（每个方向64个隐藏单元）捕获序列中的双向时间依赖关系，模型使用Adam优化器（学习率0.001）、批量大小32、二元交叉熵损失函数训练20个周期，并采用早停策略。3. 排列重要性基于的特征排名：对于每個特征，通过在样本序列之间随机洗牌特征值（保持每个序列内的时间依赖关系）来破坏该特征，根据模型性能下降计算特征重要性，选择前K=20个特征。4. 轻量级分类与部署策略：使用选定的20个特征训练轻量级机器学习模型，包括决策树（DT）、K近邻（KNN）、逻辑回归（LR）、高斯朴素贝叶斯（GNB）和随机森林（RF），并在训练中使用类别权重以解决攻击类型的不平衡问题。

研究结果

3.1 Phase 1: data preprocessing and temporal encoding（第一阶段：数据预处理与时间编码）

研究人员对CIC IIoT 2025数据集进行预处理以确保数据质量，包括移除泄漏特征以避免信息泄漏、移除不相关特征、使用中位数插补处理缺失数值数据、使用IQR封顶法处理异常值（限制异常值同时保持数据分布）、归一化所有数值属性以支持稳定学习和减少过程对属性尺度的敏感性。数据集按70%和30%分层划分为训练和测试数据集，保持两类数据集中58.44%良性和41.56%攻击实例的平衡。为处理网络中的时间依赖关系，使用滑动窗口方法（窗口大小W=10）将网络数据转换为序列，该大小在选择短期信息保持和离线特征提取过程计算效率之间取得平衡，转换后数据使模型能够识别静态特征表示无法表示的攻击顺序模式。

3.2 Phase 2: CNN–BiLSTM-based deep feature selection（第二阶段：基于CNN-BiLSTM的深度特征选择）

研究人员使用CNN-BiLSTM混合模型进行深度特征选择，CNN组件由多层卷积层（小内核大小）组成，用于检测窗口内特征之间的局部交互（包括跨特征依赖关系，通常是传统过滤方法如互信息所忽视的）；由于表格形式的网络流量数据在图像处理意义上不是空间的，一维卷积仍可识别时间窗口内相邻特征的局部依赖关系（“空间”指给定时间窗口内特征之间的依赖关系，而非几何局部，例如洪水攻击时数据包数量、数据包大小和到达间隔时间的变化一起发生）。生成的特征图随后输入双向长短期记忆（BiLSTM）层，该层以向前和向后两个方向处理序列，使模型能够捕获短期和长期时间依赖关系（这对识别协调且上下文相关的攻击行为至关重要）。CNN-BiLSTM模型学习IIoT流量的有效时空特征表示，模型由密集层完成，并使用交叉熵损失函数训练；使用Adam优化进行网络优化，采用早停以避免过拟合并鲁棒泛化。CNN-BiLSTM模型使用一个一维卷积特征提取网络构建，随后将特征馈送到序列建模网络：CNN部分由64个过滤器和过滤器大小3的一维卷积层构成，随后应用ReLU激活函数，接着使用池大小2的最大池化层对输入数据下采样；BiLSTM层为序列的两个方向各有64个隐藏单元，此外采用Dropout层（丢弃率0.3）以减少过拟合；明确包含架构超参数（如内核大小、过滤器数量、BiLSTM单元数量、丢弃率、激活函数、批量大小、学习率和周期）以影响可重复性和模型容量。

3.3 Phase 3: permutation importance-based feature ranking（第三阶段：基于排列重要性的特征排名）

研究人员在原始特征级别使用基于排列的特征重要性测试近似特征重要性：对于每个特征，在保持每个序列内时间依赖关系的同时，在样本序列之间随机洗牌该特征的值（通过将一个序列的该特征整个时间序列与另一个序列的该特征整个时间序列交换来实现）。设M为训练好的CNN-BiLSTM模型，基线性能定义为S_base= M(X_seq, Y_seq)；排列特征j后重新评估模型：S^{(j, perm)}_perm= M(X^{(j, perm)}_seq, Y_seq)；特征j的重要性计算为I_j= S_base- S^{(j, perm)}_perm。该规范提供了每个变量重要性的可测量且可重复的度量，但排列重要性仅是算法对变量变化敏感性的指标，应视为事后特征相关性的指示而非解释整个模型的手段；为抵消夸大，该规范提供特征级透明度，未来可使用SHapley Additive exPlanations（SHAP）等方法解释模型。特征根据其重要性得分排名，选择前K=20个特征（F_opt= TopK(I, K)）；选择K=20个特征用作控制实验设置以确保所有特征选择方法的公平比较，原始数据集包含94个特征，这表示维度降低约79%，显著降低维度同时保持预测性能，但未执行嵌套验证或特征稳定性分析以确定K的最优值，因此该选择应解释为标准化评估约束而非全局最优配置。

3.4 Phase 4: lightweight classification and deployment strategy（第四阶段：轻量级分类与部署策略）

在最后阶段，所选特征集用于训练简单机器学习模型：逻辑回归（LR）、决策树（DT）、K近邻（KNN）、高斯朴素贝叶斯（GNB）和随机森林（RF）；使用LR的目的是执行两类之间的线性判别，DT因其简单性被选择，KNN代表使用邻域的非参数学习，GNB提供计算性能。随后在约简特征上训练分类器，并评估性能指标（如准确率、精确率、召回率和F1分数）；训练分类器时明确使用类别权重，以解决攻击类型不平衡的问题，以有效检测少数类。研究人员提出的将离线深度特征选择与在线推理解耦，有助于高效部署所提出的框架，尤其是在资源受限的IIoT环境中；这种离线与在线方面的解耦增强了本研究的实际贡献。

5 Results and discussion（结果与讨论）

研究人员指出，尽管CIC IIoT 2025数据集包含94个特征，但并非极高维数据集，特征之间存在显著冗余和多重共线性，使特征选择成为需要捕获复杂特征交互的非平凡问题。过滤式特征选择技术（如互信息（MI））使用统计度量评估单个特征，不考虑特征对之间的交互或更多，也不考虑序列数据中的时间依赖关系；为进行全面比较，还基于其他基于深度学习的特征选择方法进行了更多实验：确切地说，执行仅CNN特征选择以提取局部特征交互信息，执行仅BiLSTM特征选择以提取时间维度的特征信息；提出的CNN和BiLSTM混合框架预计结合特征交互建模和时间依赖学习，特征重要性也预计通过排列特征重要性（适用于训练模型）评估。图4描述了使用各种特征选择技术的分类性能可视化表示，表2表示性能的详细定量分析；结果显示，所提出的基于CNN-BiLSTM的特征选择技术在所有分类器上实现了比单独MI、CNN和BiLSTM更高的召回率和F1分数，多次实验中一致的性能确保了所提出方法的稳定性。当评估特征选择技术时，区分特征质量和特征选择的影响也很重要，所有技术选择相等数量的特征（K=20），因此性能的任何差异将归因于特征质量而非特征数量；研究结果表明，CNN-BiLSTM模型能够选择充分描述时空依赖关系的特征子集，这是其他技术无法充分实现的。另一个因素是特征重要性是模型依赖属性，CNN-BiLSTM模型突出显示对深度学习模型最重要的特征，但这些特征不一定对单个轻量级分类器最优；然而，所考虑的特征对各种分类器（包括DT、KNN、LR、NB和RF）具有高度可转移性，这意味着这些特征对数据是基础性的，并且适用于广泛的学习范式，使其可用于部署。IDS中的类别不平衡通常是由于各种攻击类型的样本数量不平衡而非良性和恶意两类之间，对于CIC IIoT 2025数据集，尽管两类平衡良好，但50种攻击类型的样本数量高度不平衡；训练过程中使用类别权重以平衡类别，所有分类器的召回率高（高于0.96）表明所选特征适用于检测所有类型的攻击（无论是常见还是罕见）。实验结果表明，所提出的特征选择方法可以提高各种分类器的检测性能（如基于树的分类器、基于距离的分类器、概率分类器和线性分类器）；此外，具有CNN-BiLSTM特征选择的随机森林（RF）分类器具有最高检测性能（准确率0.9720、召回率0.9720、精确率0.9730、F1分数0.9719）；尽管本研究未明确计算假正率（FPR），高精确率（0.9730）表明潜在低误报倾向，但无明确FPR计算，无法建立关于误报率的明确结论。同样，决策树（DT）分类器的准确率为0.9710，F1分数为0.9708，这表明即使是具有清晰解释的简单模型在具有显著信息特征子集训练时也具有高精度；KNN、LR和NB分类器在CNN-BiLSTM选择的特征下也具有高精度，进一步验证了所提出方法的通用性。相反，基于MI的特征选择导致低召回率和F1分数（尤其是利用特征交互和时间模式的分类器），再次显示复杂IIoT流量场景中特征评估的弱点（攻击可能是顺序性质的）。为进一步评估单个组件的贡献，进行了消融研究，比较仅CNN、仅BiLSTM和CNN与BiLSTM组合用于特征选择的性能：仅CNN模型在RF模型上实现高F1分数0.9133，表明局部特征具有信息性但对任务不足；仅BiLSTM模型实现较低F1分数0.7265，表明时间特征对任务不足；CNN和BiLSTM的组合实现最高性能（高F1分数0.9719）。总体而言，所提出的用于选择特征的CNN-BiLSTM方法优于比较方法，因为它不仅考虑窗内特征关系，还考虑窗间时间关系；排列重要性技术通过识别在扰动下对模型性能贡献最大的特征提供特征级透明度，但不提供完整模型可解释性（因为它不明确建模内部特征交互）；将所选特征数量固定为K=20允许公平比较，但未执行鲁棒性分析；值得注意的是，尽管所提出模型对CIC IIoT 2025数据集有效，但当前研究结果限于该特定数据集，这些结果应视为在测试特定数据集上下文中的指示性结果。

5.1 Limitations（局限性）

研究人员指出了本研究的若干局限性：首先，尽管论文中使用的数据集包含94个特征，但未研究所提出框架对于具有数百或数千个特征的更大型IIoT环境的扩展性；其次，所提出框架用于二分类，而将其用于多类入侵检测将提供对各种攻击类型的更深入见解；第三，尽管框架被提议部署在边缘，但未研究所提出框架在真实设备上的推理延迟和资源消耗；此外，未进行研究关于所提出特征选择过程的稳定性，或基于不同重采样方案的选择特征稳定性（未来研究可通过Jaccard指数和Kuncheva指数等措施完成）；另外，尽管排列重要性给出关于特征重要性水平的一些信息，但仍不提供模型的完整解释（如SHAP会）。

6 Conclusion（结论）

研究人员在本研究论文中介绍了一种深度特征选择（DFS）方法，该方法可使用具有基于排列的特征相关性评估的混合CNN-BiLSTM架构应用于IIoT中的入侵检测；所介绍的DFS方法将克服当前特征选择方法的以下缺陷：一方面，过滤式特征选择方法（如MI）孤立评估特征重要性，另一方面，所介绍的DFS方法将基于其时间感知排列对网络性能的影响来确定每个特征的重要性。所提出的框架选择最合适的特征，然后可用于训练轻量级分类器，使其成为IIoT环境中入侵检测的有效工具；使用CIC IIoT 2025数据集的实验结果证明了所提出的基于混合CNN-BiLSTM模型的DFS框架在提高各种分类器在入侵检测上下文中的性能的有效性（例如，所提出框架提高了分类器的召回率和F1分数，从而使其在具有较低误报倾向的IIoT环境中检测入侵更有效）。所提出的框架在结构上也是面向部署的，因为将特征选择过程与推理阶段分离，这有助于在边缘设置中实现更好的解决方案可扩展性，同时保持高检测能力；另一个优点是使用较小特征集有助于部署阶段的计算效率（尽管当前研究中没有特定延迟/资源消耗数据）。应强调特征重要性和模型可解释性之间的区别：虽然提出的解决方案能够通过基于排列的操作后根据准确率分数变化的影响来识别对预测最重要的特征，但目前的技术仍无法完全理解模型中此类特征的交互。尽管CIC IIoT 2025数据集可能反映实际的IIoT流量情况，但评估仅使用一个基准进行；因此，尽管各种分类器和基线特征选择之间性能的稳步提高表明框架在该数据集上是可靠的，但其对其他IIoT数据集的适用性必须保留保留意见；数据集中广泛的攻击（50类）和数据集中类别不平衡的存在某种程度上证明了框架的可靠性，但仍需要在其他基准上进一步验证。未来研究的潜在方向包括将上述技术推广用于多类入侵检测、基于概念漂移的特征选择适应、以及将该框架应用于联邦学习模型；此外，未来研究的潜在方向将包括针对其他物联网和IIoT入侵检测系统的外部基准测试、该模型对窗口大小和所选特征大小的敏感性分析、不同重采样下特征选择过程的稳定性评估以及假正率。

热点排行