基于能量的多分辨率分析：利用光纤布拉格光栅（FBG）测量应变响应来检测弯曲压力容器结构中的空洞，这些结构在导波激励下进行测试作者：王梓平（Ziping Wang）、Kuebutornye Napoleon、王希林（Xilin Wang）、夏青伟（Qingwei Xia）、Güemes Alfredo 和 Fernández López Antonio

《Sensors》：Energy-Based Multiresolution Analysis of FBG-Measured Strain Responses for Void Detection in Curved Pressure Vessel Structures Under Guided Wave Excitation Ziping Wang, Napoleon Kuebutornye, Xilin Wang, Qingwei Xia, Alfredo Güemes and Antonio Fernández López

【字体：大中小】 时间：2026年04月30日 来源：Sensors 3.5

编辑推荐：

　　摘要：资源受限的物联网（IoT）节点的普遍性迫切需要针对计算能力有限的边缘设备优化网络入侵检测系统（NIDSs）。在本文中，我们提出了一种基于Mamba的新NIDS系统。NIDS-Mamba使用动态稀疏注意力机制和轻量级状态空间来共同学习短期异常和长期攻击模式。我们使用标准化的N

　　摘要：资源受限的物联网（IoT）节点的普遍性迫切需要针对计算能力有限的边缘设备优化网络入侵检测系统（NIDSs）。在本文中，我们提出了一种基于Mamba的新NIDS系统。NIDS-Mamba使用动态稀疏注意力机制和轻量级状态空间来共同学习短期异常和长期攻击模式。我们使用标准化的NF-UNSW-NB15和NF-CSE-CIC-IDS2018数据集来验证NIDS-Mamba模型的有效性。我们发现该模型在处理极端类别不平衡问题时非常有效。在NF-CSE-CIC-IDS2018数据集中，该模型的准确率为98.32%，F1分数为96.98%，AUC为0.9996。尤为值得注意的是，该模型在处理NF-UNSW-NB15数据集中的极端类别不平衡问题时表现出很强的鲁棒性，其G-Mean为97.03%，MCC为0.7915，AUC为0.9983，远超其他基线模型。与基于Transformer的基线模型相比，NIDS-Mamba在保持与边缘设备部署限制兼容的参数规模的同时，吞吐量几乎提高了一个数量级。所提出的架构有效减轻了标准Transformer固有的二次复杂性和内存墙问题，确保了与有限RAM和严格能源限制的兼容性。该模型具有紧凑的设计，参数数量为112万个，峰值推理内存为5.4 MB，使其适用于基于边缘的IoT节点。这些特性使得NIDS-Mamba成为智能家居、工业IoT和关键基础设施场景中IoT网关和边缘传感器节点的理想选择。

1. 引言
物联网（IoT）的迅速普及导致了互联传感器网络的空前扩展，数十亿设备被部署在智慧城市、工业控制系统和关键基础设施中。El País报道，到2026年初，连接设备数量将超过250亿个，并在2030年前达到400亿个[1]。然而，这种大规模部署也显著扩大了网络系统的攻击面[2]。由于异构架构、始终在线的连接性和最小的内置安全机制，IoT和传感器网络本质上容易受到攻击[3]。许多设备的计算能力有限，缺乏针对网络威胁的强大保护，使其成为大规模攻击（如僵尸网络、分布式拒绝服务（DDoS）和数据泄露）的主要目标[4,5,6]。事实上，最近的网络安全分析表明，针对IoT的攻击急剧增加，每年都有数亿次入侵尝试发生在边缘连接基础设施上[7]。这些挑战使得IoT安全——特别是在资源受限的传感器环境中——成为现代网络入侵检测研究的前沿。

目前，基于深度学习的网络入侵检测系统（NIDSs）在三个主要方面取得了显著进展：（1）在大规模基准数据集上实现更高的检测准确性；（2）能够检测复杂和未知的攻击，如零日攻击和多态攻击；（3）通过端到端表示学习减少手动特征工程的工作量[8,9,10,11]。这些进展突显了基于深度学习的NIDS相对于传统方法（如随机森林和支持向量机[8,9]）的根本优势。与传统方法不同，深度学习模型（如卷积神经网络（CNNs）和长短期记忆网络（LSTMs）利用分层架构直接从原始网络流量或基于流的数据中自动学习复杂的高维特征表示[10,11]。这种自动特征提取的能力显著提高了对复杂、多态和零日攻击的检测能力，而这些攻击通常是传统方法难以识别的[12]。尽管基于深度学习的NIDS取得了显著进展，但现有方法仍难以满足IoT和边缘环境的严格要求。这一限制源于两个根本挑战。首先，基于Transformer的模型虽然在捕捉长距离依赖关系方面表现出强大能力，但由于序列长度的二次计算复杂性，导致过度的内存消耗和能源使用[13]。这些特性使得它们不适用于基于IoT的微控制器、资源受限的嵌入式系统或低功耗IoT网关的部署。其次，循环架构（如循环神经网络（RNNs）和LSTM网络）存在固有的顺序处理瓶颈，严重限制了吞吐量并阻碍了高速网络场景中的实时检测[14,15]。更严重的是，现有研究往往忽略了边缘设备的严格能源预算和有限的RAM可用性[16,17]，即使中等规模的模型也可能超出硬件限制[18,19]。资源限制主要体现在三个方面：（1）存储内存，它限制了参数总量以适应典型嵌入式系统的几兆字节闪存容量；（2）运行时RAM，它要求在推理期间最小化峰值内存使用，以防止内存溢出（OOM）错误，特别是由传统注意力机制中的二次激活增长引起的错误；（3）能源预算，它需要低计算复杂性（FLOPs）以延长电池驱动的IoT传感器的操作寿命。

总之，尽管当前的基于深度学习的NIDSs显示出了强大的检测性能，但它们并不适合具有部署限制的IoT环境。在模型有效性和部署可行性方面，特别是在检测准确性、计算成本和资源消耗方面，存在明显差距。因此，高性能NIDS模型与实际IoT传感器部署之间的可行性之间存在明显差距。为了解决上述硬件限制以及建模效率与检测细粒度之间的固有权衡，本文的优化目标是在实现最先进的检测准确性的同时，最大化推理吞吐量并最小化硬件资源占用，包括峰值RAM、存储闪存和计算复杂性（FLOPs）。

在现实世界的IoT应用中，不仅需要高检测准确性，还需要边缘环境强加的系统级限制。最近的研究表明，IoT设备的内存容量、计算能力和能源预算受到严重限制，这本质上阻碍了复杂基于DL的方法的应用[16,17,18,19]。因此，本文提出的NIDS需要能够适应IoT环境中常见的异构硬件层，范围从边缘网关（例如NVIDIA Jetson）到高性能单板计算机（例如Raspberry Pi 4B）。在这些环境中，本文解决的具体资源限制包括有限的RAM可用性（通常在几兆字节以内）、用于模型存储的有限片上闪存，以及禁止使用高功耗硬件加速器的严格能源预算。通过定义这些限制，NIDS-Mamba被设计为提供线性时间的检测效率，同时不超过这些分散式传感器节点的物理限制。因此，这些限制自然地对NIDS提出了额外的设计要求，包括低内存占用、高吞吐量和能源效率，这对于实际部署至关重要。

在现实世界的IoT环境中，网络流量具有复杂的拓扑结构和高速度数据流的特点。复杂的拓扑结构引入了分布式设备之间的复杂依赖关系，而高速流量产生了长而密集的时间序列。这些特性共同增加了实时准确建模网络行为的难度。这带来了一个关键挑战：NIDS必须同时在严格资源限制下捕获设备间的关系依赖性和高速流中的时间模式。例如，图神经网络（GNNs）在通过将网络流量建模为图结构来捕获通信实体之间的关系依赖性方面展示了卓越的能力[20]。同时，时间卷积网络（TCNs）作为一种稳健的序列建模替代方案出现，与LSTMs相比提供了更好的并行性，同时保持了稳定的梯度流[21,22]。尽管取得了这些进展，但在GNNs的高维关系捕获与IoT边缘部署所需的线性时间效率之间取得平衡仍然是一个重大挑战。

状态空间模型（SSMs）的最新发展，特别是Mamba架构，为高效序列建模提供了有希望的替代方案。序列建模对NIDSs的相关性在于网络通信的时间性质；入侵很少是单一的孤立事件，而是一系列相互关联的数据包，其恶意意图只能通过它们的时间相关性来识别。在IoT生态系统中，安全挑战本质上是一个高效序列建模的问题。由于IoT网关必须处理高速流量流，而它们的静态随机访问内存（SRAM）和能源预算极其有限，传统模型（如Transformer）的二次复杂性会形成“内存墙”，而序列模型（如LSTMs）则存在高延迟。因此，IoT安全研究的核心转向了能够以线性时间效率捕获长距离攻击模式的序列建模范式。与传统的RNNs和Transformers不同，Mamba实现了接近线性的计算复杂性，同时保持了建模长距离依赖关系的强大能力[23,24]。这一特性使模型能够在关注关键时间模式（如拒绝服务攻击中的突发行为）的同时高效处理网络流量。网络流量与大规模IoT部署之间的直接相关性源于IoT传感器节点通常生成高频、遥测驱动的流量流，任何通信频率或负载大小的偏差都是设备被破坏的主要指标[13]。在庞大的IoT生态系统中，同时发生的流量量需要一个能够实现线性时间复杂性的模型，以防止“处理墙”，确保可以在边缘本地执行时间异常的识别，而不会在网络结构中引入过多的延迟[24,25]。重要的是，Mamba的线性复杂性不仅提高了吞吐量，还降低了计算开销和能源消耗，使其特别适合部署在资源受限的边缘设备上[25]。

Mamba在网络入侵检测中的应用仍处于早期阶段[26]。虽然Mamba有效地减轻了Transformers的二次复杂性，但它面临一个“信息瓶颈”，即固定大小的状态可能难以保留隐蔽攻击的详细历史细节。认识到Mamba和注意力机制具有互补的表达能力，本文提出了一种新的混合深度学习架构，称为NIDS-Mamba。该模型结合了轻量级状态空间模块、动态稀疏注意力和深度可分离卷积。这种协同作用使Mamba模块能够以线性效率处理长距离过滤，而动态稀疏注意力机制在不需要标准Transformer的高昂成本的情况下恢复了关键的全局依赖关系。通过利用基于流的统计特征的轻量级特性，该架构在检测准确性和计算效率之间取得了平衡，使其非常适合实时网络环境。

本文的贡献是多方面的。首先，我们成功创建了一个高效NIDS，它在流级别运行，其中网络流量被聚合成双向流，通过标准的5元组来提取用于威胁检测的统计特征。在此过程中，我们通过使用流级元数据而不是原始数据包负载来设计上保护用户隐私。其次，我们提出了一种新的协同机制，结合了选择性状态空间模型、注意力机制和卷积机制，以克服纯SSMs的固有召回限制。所设计的机制过滤无关信息，同时保留了短期异常和长期攻击模式的关键时空特征。第三，我们证明了NIDS-Mamba提供了“准确性-资源”权衡的全面解决方案。具体来说，它在保持最小RAM占用和低能源预算的同时实现了具有竞争力的高性能检测，使其本质上与边缘传感器节点的严格物理限制兼容。

2. 基于流的异常检测
2.1. 基于流的异常检测框架
在详细介绍所提出的架构之前，定义“基于流的”检测范式及其解决的具体问题至关重要。与执行单个数据包负载深度检查的包级NIDSs不同，基于流的检测将网络流量分析为一系列双向通信记录。网络“流”由其5元组（源/目标IP、源/目标端口和协议）定义，并以聚合的统计特征为特征，包括持续时间、数据包计数和字节率。

从问题表述的角度来看，我们将网络入侵检测视为一个序列分类任务。正式地，给定一系列标准化的流特征向量，其中每个向量表示时间步i的流的统计属性，目标是学习一个映射函数。这里，表示预测标签，可以是二元的（良性或恶意）或多类的（特定攻击类别）。该框架旨在通过首先将高维原始流量压缩成可管理的流向量，然后使用NIDS-Mamba模块以线性时间效率捕获局部异常和长期攻击模式来解决序列建模问题——这对于资源受限的边缘网关来说是一个关键要求。如图1所示，基于流的异常检测框架主要由三个部分组成：数据预处理模块、入侵检测模块和性能评估模块。数据预处理模块通过离散化、标准化、归一化和重采样等操作将原始流量数据转换为与神经网络兼容的输入格式。入侵检测模块采用了所提出的NIDS-Mamba模型；通过从多个角度分析流量特征，它可以有效地识别出具有长期时间依赖性的复杂数据中的异常行为。最后，通过评估模块使用包括准确性、精确度、召回率、假阳性率（FPR）、F1分数、G-Mean、马修斯相关系数（MCC）和曲线下面积（AUC）在内的综合指标来严格评估检测性能。作为与阈值无关的指标，AUC特别被纳入以提供对模型区分能力的全面评估。这对于本研究中使用的不平衡网络流量数据集尤为重要，因为它衡量了模型在特定分类阈值无关的情况下区分良性流量和恶意流量的能力。图1. 所提出的基于流的异常检测框架的架构。

2.2 数据预处理
数据预处理的目的是通过量化、标准化和归一化来确保数据平衡和一致性，从而优化模型性能。

2.2.1 数据量化
除了总数据包数和持续时间等数值外，流量数据还包括服务类型和连接状态等分类值。这些值使用Scikit-learn中的LabelEncoder()转换为数值。此外，良性数据和攻击数据通过它们的类别值（良性或攻击）进行区分。在二元分类中，良性数据和攻击数据分别用0和1表示；而在多分类中，使用One-Hot编码将不同类型的攻击数据转换为唯一的二进制向量。

2.2.2 标准化与归一化
标准化用于将特征缩放到统一的方差范围内，防止幅度较大的特征主导损失函数。标准化公式表示为方程（1）：
(1)
在上述方程中，x表示原始数据点，μ表示均值，σ表示标准差，z表示标准化后的数据。归一化将值的范围映射到[0, 1]的固定范围内。这种技术有助于模型以相同的尺度处理数据集中的所有特征。在这种技术中，使用最大值和最小值对数据集进行线性变换。归一化可以用方程（2）表示：
(2)
其中x是原始数据，min(X)和max(X)分别表示特征的最小值和最大值，xnorm是标准化后的数据。

2.2.3 重采样
在网络流量数据集中，可能会出现类别不平衡的问题，即良性网络流量样本的数量远远超过攻击网络流量样本的数量。对少数类进行过采样可以在一定程度上平衡数据集。在本节中，将使用合成少数类过采样技术（SMOTE）[27,28,29]来对少数类进行过采样。在SMOTE算法中，根据少数类样本的邻域创建新的样本。这些在算法中创建的新样本可以称为“合成”样本。因此，可以在一定程度上避免过拟合。SMOTE算法的过程可以描述如下：
从少数类样本（例如，攻击样本）中随机选择一个样本xi，并选择xi的一个或多个最近邻居。设xi的最近邻居为(xi,1, xi,2, …, xi,m)，其中m是选择的邻居数量。对于每个邻居xi,j，通过在xi和xi,j之间插值来生成一个新的合成样本xnew。公式表示为方程（3）：
(3)
其中λ是在[0, 1]区间内随机选择的系数，用于控制插值的程度。

2.3 基于NIDS-Mamba的检测模型
根据TCP/IP网络协议，网络数据包由多个流量字节组成，这些字节进一步组合成数据流。因此，网络流量中的字节、数据包、会话及其组合可以类比于自然语言中的字符、单词、句子和文本的组合。因此，流量数据本质上可以被视为具有强上下文依赖性的序列数据。从这个角度来看，网络入侵检测可以重新定义为序列标记或分类任务，模型必须读取流以识别语义异常。对高效序列建模的需求直接来源于分散式传感器节点的硬件限制。在这些环境中，为了检测隐蔽的多阶段攻击，流的观察窗口通常需要很长，但峰值内存必须保持在低兆字节级别。高效的序列建模，特别是具有线性复杂性的建模，是使这些资源受限的节点能够在不依赖集中式云的情况下进行实时深度数据包或基于流的分析的唯一可行路径。理论上，由于嵌入式AI的功耗主要由计算密度和内存数据移动驱动，从二次复杂度降低到线性复杂度本质上减少了每次推理所需的能量预算。这种线性扩展确保了即使在检测隐蔽攻击的观察窗口扩大时，每个流的能量消耗也保持稳定。然而，当前的基于机器学习的NIDS主要关注对单个网络流量记录的分类，而没有考虑通信过程中网络流量中的时间依赖性和长期交互特性。

尽管基于注意力的NIDS在捕获长期依赖性方面非常有效，但由于之前提到的计算开销，它们通常不适用于边缘会话分析。此外，Transformer的全局注意力机制在处理高度冗余或噪声较大的网络流量时可能导致注意力分布分散，从而降低模型关注关键攻击特征的能力。同时，虽然基于选择性SSM的Mamba模型在理论上能够以线性复杂性建模长序列依赖性，并在长上下文任务中表现出优异的效率和可扩展性，但其隐式的注意力机制难以直接解释。这限制了模型在安全场景中的可解释性、可调试性和行为分析能力。此外，当面对复杂的多阶段攻击或跨会话相关特征时，Mamba的选择性机制中的隐式信息流可能难以直接控制或限制，从而影响模型在安全关键任务中的可靠性[3]。

为了解决这些问题，本文提出了NIDS-Mamba神经网络模型，该模型结合了动态稀疏注意力和轻量级状态空间模块，以利用它们的互补表达能力[30]。这种混合架构利用选择性SSM在线性时间内高效建模长距离时间依赖性，同时利用注意力机制同时关注整个序列，从而补偿Mamba的状态压缩可能导致的潜在信息损失。这种协同作用使模型能够共同捕获短期异常特征和长期攻击行为模式，提高网络流量检测的整体性能。所提出模型的架构如图2所示，包括三个主要部分：输入编码器、NIDS-Mamba块和多层感知器（MLP）头部。输入编码器将网络流量流转换为固定长度的向量。在输入序列被向量化后，附加一个可学习的分类令牌以支持后续的分类任务。最后，MLP头部处理NIDS-Mamba块生成的输出序列，将上下文嵌入转换为入侵类别的最终预测。

2.3.1 输入编码器
在基于流的网络入侵检测系统中，输入编码器被认为是将原始流数据转换为特征向量的关键组件，这些特征向量可以进一步由NIDS-Mamba模型处理。流量数据通常以表格形式呈现，每个流由固定字段组成，这些字段可以分为两类：数值字段（如数据包数量），其中数值差异具有上下文意义；以及分类字段（如端口），其中数值差异没有意义。例如，端口25和22有显著差异，因为它们属于不同的协议，而端口443和8080具有相似的用途。因此，输入编码器必须处理分类字段，使其在向量空间中的表示不受数值大小的影响，确保生成的特征向量反映了与网络流量相关的关键信息，以便后续模型分析。本节通过将分类字段转换为具有上下文意义的连续向量[10,31]，然后将这些向量与数值向量连接起来，以获得可用于后续模型的特征向量。由于表格数据中的特征没有固有的顺序，因此不使用位置编码。该过程如图3所示。图3. 数值和分类特征的输入编码模块图（经[31]许可复制）。假设(xcat, xnum)表示一个特征目标对，其中xcat表示所有分类特征，xnum表示所有数值特征。xcat = {x1, x2, …, xm}，每个xi表示一个分类字段。xi的值属于一个有限集。通过嵌入层，为每个类别值学习一个d维连续向量，如方程（4）所示：
(4)
这里的嵌入层被设计为一个查找表，其中每个xi对应一个向量。嵌入层的参数包括一个嵌入矩阵K，表示可能的类别值总数。表示方式如方程（5）所示：
(5)
嵌入层的参数在训练过程中不断更新，以确保相似类别在嵌入空间中有更接近的表示。给定xi的特定值k，可以通过检索嵌入矩阵的第k行获得其对应的嵌入向量，如方程（6）所示：
(6)
这表示从嵌入矩阵中检索分类值k对应的嵌入向量。在连接分类和数值嵌入之后，输入流量记录被映射到固定的隐藏维度D = 128。这个维度确保了网络特征的足够高阶表示，同时保持了边缘网关的轻量级。

2.3.2 NIDS-Mamba模型架构
如图4所示，NIDS-Mamba的总体架构是四个相同层的层次堆叠，每一层都集成了一个Mamba块、一个自注意力层、一个前馈网络（FFN）和一个卷积层，通过协同交互机制。在每一层中，这些组件以顺序和互补的方式操作，从网络流中提取多级特征。图4. NIDS-Mamba模块的结构。加号表示残差连接。首先，Mamba块对输入特征向量进行初始的选择性扫描，以获得时变依赖性并排除无关噪声，为进一步处理建立更精细的表示。在此步骤之后，结果将被输入到自注意力层，模型将在其中应用注意力机制来学习多维特征向量中的长期时间依赖性和高级相关性。自注意力层通过增强建模能力和学习不同特征之间的相关性来弥补SSM层在降维过程中可能的信息损失。然后，下一步是将特征向量输入到FFN中进行非线性转换，以将数据映射到新的特征空间，从而学习流量分类所需的复杂关系。最后，卷积层为流量流中的令牌之间的局部和全局交互提供了更大的依赖性学习领域。在整个四层过程中，每个模块之间使用残差连接来解决梯度消失和爆炸问题，确保原始嵌入流中的关键信息能够顺利通过深度架构。

为了确保所提出的NIDS-Mamba的可重复性，详细的架构配置和超参数设置总结在表1中。这些参数是通过经验优化和网格搜索确定的，以平衡物联网边缘部署的检测准确性和计算开销。表1。模型超参数。
a. Mamba-Block
NIDS-Mamba架构中的Mamba-Block如图5所示。该层从输入向量中选择相关数据，并通过SSM学习时变依赖关系。Mamba-Block的内部架构采用门控双路径设计，以协同处理网络流量特征。输入序列进入该块后，通过线性投影分为两个对称分支。主分支（左侧）首先使用1D卷积层聚合流中的局部时空相关性，然后将其输入到选择性SSM模块中。该模块作为核心引擎，通过动态调整其状态转换参数来执行硬件感知的选择性扫描，以建模长距离依赖关系。同时，辅助分支（右侧）作为门控机制，其中投影特征通过Sigmoid线性单元（SiLU）函数激活以生成调制信号。这两个路径之间的交互通过Hadamard积实现，使模型能够选择性地放大与攻击相关的特征，同时抑制背景网络噪声。最后，融合的信息被投影回原始维度，并通过残差连接与初始输入结合，确保深度层之间的梯度流动和信息稳定性。
图5. Mamba-Block的结构图。
对于第l个NIDS-Mamba块，输入流向量定义为，其中B是批量大小，L表示网络流的序列长度，D表示特征维度。为了捕获高阶依赖关系，输入首先通过两个并行线性投影函数映射到高维空间：
(7)
其中分别作为中间特征分支和门控分支，E是扩展因子。在Mamba块中，因子E设置为2，有效地将输入投影到256维空间。1D卷积层使用4的核大小来捕获扩展流特征中的局部依赖关系。随后，对这些分支应用非线性变换以提取局部上下文：
(8)
在这种公式中，表示通过一维卷积（Conv1D）和SiLU激活函数处理的特征张量。门控张量用于调制信息流。根据选择性机制，参数矩阵B、C和SSM的步长从x′动态派生如下[32]：
(9)
其中和表示可学习的线性变换。通过使用计算出的步长，连续系统矩阵A和B被离散化为和：
(10)
在选择性SSM扫描之后，生成潜在输出：
(11)
如方程(12)所示，输出y通过Hadamard积与门控分支z′相乘，并进行最终线性投影以恢复到原始维度D。该结果与初始输入通过残差连接结合，产生最终块输出：
(12)

b. 自注意力层
注意力机制使每个时间步能够与其他时间步的所有信息交互，从而捕获流量序列中的长期依赖关系。该过程通常使用缩放点积[33]实现，如图6所示。
图6. 注意力机制的示意图。
输入的每个位置都与权重矩阵、和相乘，生成三个向量：查询（Q）、键（K）和值（V）。对于每个位置的查询，计算与其他位置的键的点积以产生注意力分数，然后通过Softmax函数进行归一化以确定每个位置的注意力权重。这些权重随后与相应的值相乘，以得出每个位置的输出。最后，FFN对每个位置的输出应用独立变换。具体的计算过程在方程(13)中表示：
(13)
在上述方程中，表示键向量的维度，用于缩放注意力分数。
然而，在现实世界场景中，数据流经常表现出大量的同质通信特征，但传统的自注意力机制不加区分地计算它们的相似性。在NIDS-Mamba中，并非所有特征单元都需要参与注意力交互；具有相似统计特性的流量特征应被聚合成更高阶的流量模式表示。直接将原始输入维度绑定到Q、K和V向量的维度不仅引入了冗余的计算开销，还限制了模型的学习能力。为了解决这些限制，本节提出了一种可扩展的自注意力机制。通过引入两个缩放因子和，它将输入向量的维度与Q、K和V向量的维度分离。缩放因子和的选择取决于目标物联网边缘设备的特定资源限制和网络流量特征的复杂性。控制时间维度（序列长度）的压缩比，而控制特征空间的维度降低。我们采用具有八个注意力头的多头可扩展注意力机制。通过设置缩放因子=4和=1，模型有效地将每个四个令牌的时间模式聚合成一个，将计算复杂性从二次降低到线性。在我们的实验中，这些值通过网格搜索进行优化：较高的缩放因子保留了更细粒度的信息，但增加了计算延迟，而较低的因子在潜在的准确性下降代价下提高了吞吐量。这种灵活性允许NIDS-Mamba为不同的硬件层次重新配置，从高性能网关到低功耗传感器节点。此外，还使用了三种变换函数、和来降低权重矩阵的维度。为了实现变换函数，我们结合了深度可分离卷积和线性投影。对于输入序列，变换定义如下：
(14)
其中表示具有与缩放因子相对应的步长的深度卷积，有效地将相邻的流量特征聚合成更高阶的表示。然后层将隐藏维度D投影到目标尺度。通过使用深度卷积，我们在捕获标准点状投影会错过的局部时空相关性的同时，保持了最小的参数数量。详细计算在方程(15)中给出：
(15)
其中、和。通过、和，实现了三个权重矩阵的维度缩放，这一过程有效地减少了不必要的中间乘法。在实践中，这三个变换函数的实现依赖于卷积和线性投影的结合协同效应。可扩展的自注意力机制保留了输入矩阵的维度，确保输入和输出之间的严格维度对齐。
与标准自注意力机制不同，后者受到复杂性的影响，所提出的可扩展机制将复杂性降低到。虽然现有的高效注意力变体（如Linformer或Performer）通常使用随机投影或低秩近似，但我们的方法特别利用了NetFlow数据中的冗余性，通过可学习的卷积核。这确保模型不仅仅是数学上压缩输入，而是主动过滤物联网僵尸网络攻击中常见的同质通信模式，从而提高了对隐蔽异常的召回率。

卷积层
卷积层的功能是扩展模型的感受野，增强其模拟流序列中局部和全局信息交互相关性的能力。在此过程中，输入和输出序列的维度保持一致。卷积过程如图7所示。
图7. 卷积过程的示意图。
FFN之后的专用卷积层使用步长为1的核。这种配置扩展了感受野，以集成全局时空上下文，而不改变序列维度。

2.3.3 MLP头
由于NIDS-Mamba作为一个序列到序列模型运行，其序列输出必须明确转换为NIDS分类结果。尽管NIDS-Mamba的所有输出理论上都可以直接输入到MLP中，但这样做会导致参数数量随着序列长度呈指数级增加。鉴于NIDS分类任务主要涉及最终流的类别（例如，区分良性和攻击流量），最终上下文嵌入向量直接用作分类头的输入，以显著降低计算复杂性。
如图8所示，MLP头通过选择性地提取附加在序列末尾的Classify Token对应的高维隐藏状态来操作。由于NIDS-Mamba的骨干在其四个层中保持了序列维度，因此最终索引处的这个特定向量作为全局特征描述符，汇总了整个网络流的时空上下文。通过将这个代表性嵌入用于分类而不是 flatten 整个输出序列，模型有效地将MLP的参数复杂性与序列长度L解耦。这种架构选择允许系统在决策阶段保持恒定的计算开销，这对于资源受限的物联网网关特别有利。然后通过全连接层处理提取的向量，将学习到的表示映射为概率分布，便于最终区分良性流量和各种攻击类别，如DoS/DDoS或Web攻击。
图8. MLP头输入过程的示意图。

3. 实验结果和分析
3.1. 实验设置
为了确保结果的可重复性，所有实验都在配备有Intel Core i9-13900K CPU、64 GB RAM和NVIDIA GeForce RTX 4090 GPU（24 GB VRAM）的高性能工作站上进行。软件环境基于Ubuntu 22.04 LTS构建，使用PyTorch 2.1框架和CUDA 12.1加速。

3.2. 流量数据集介绍
本实验中使用的数据集是基于NetFlow网络元数据收集协议和系统的标准NIDS特征集，具体来说是NF-UNSW-NB15和NF-CSE-CIC-IDS2018 [12,34,35]。这两个数据集随后被用来验证所提出模型的有效性。这些数据集的基线形式的一个关键问题是缺乏标准化的特征集。因为每个公开可用的数据集都使用一组独特的专有特征，因此很难比较基于机器学习的流量分类模型在不同数据集上的性能，从而阻碍了这些系统在多样化网络场景中的泛化能力的评估。
为了克服这些限制，本研究使用NetFlow来标准化基准数据集的特征[8]。
图9展示了从原始数据集到标准化数据集的处理流程。
图9. 数据集标准化过程的示意图。
nProbe工具用于从公开可用的pcap文件中提取43个NetFlow特征。输出格式被指定为文本流，其中每个特征由逗号（,）分隔，以便将其作为CSV文件使用。通过将五个流量标识符（源/目标IP、端口和协议）与原始数据集中发布的真实攻击事件匹配，生成两个标签特征。如果数据流属于攻击事件，则将其标记为攻击流，并在其攻击标签中记录相应的攻击类型；否则，样本被标记为良性流。标准化的流量特征在下面的表2中呈现。
表2. 标准化的NetFlow特征。
上述提到的43个标准化特征代表了网络流的时间和统计行为，使NIDS-Mamba模型能够在不检查单个数据包负载的情况下识别复杂的攻击模式。

NF-CSE-CIC-IDS2018概述：2018年，通信安全机构（CSE）和加拿大网络安全研究所（CIC）共同发布了CSE-CIC-IDS2018数据集[12,34]。良性数据包是在正常网络场景中捕获的，而攻击场景是由目标网络外部的一台或多台机器执行的。经过NetFlow标准化后，数据流的总数为18,893,708个，包括16,635,567个（88.05%）良性样本和2,258,141个（11.95%）攻击样本。表3详细说明了NF-CSE-CIC-IDS2018数据集中的所有流量分布。我们从网页（https://www.unb.ca/cic/datasets/ids-2018.html，访问于2025年11月11日）获取了该数据集。

NF-UNSW-NB15概述：澳大利亚网络安全中心（ACCS）的网络范围实验室在2015年发布了广泛使用的UNSW-NB15数据集[12,35]。数据集的原始网络数据包是使用机构网络范围内的IXIA PerfectStorm工具生成的，该工具能够合成包含现代正常活动和合成现代攻击行为的混合数据集。按照NetFlow标准进行规范化后，数据流的总数为2,390,275个，其中2,295,222个（96.02%）是良性样本，95,053个（3.98%）是攻击样本。攻击样本进一步被划分为九个类别。表4展示了NF-UNSW-NB15数据集中所有流的分布情况。我们从网页（https://staff.itee.uq.edu.au/marius/NIDS_datasets/）获取了该数据集，访问时间为2025年11月11日。表4. NF-UNSW-NB15数据集的流分布。

3.3 评估指标
为了严格评估所提出的模型在引言中识别的挑战，我们的性能指标分为两个维度：（1）检测鲁棒性，包括准确性、F1分数、G-Mean、MCC和AUC，以确保在类别不平衡的情况下仍能高效识别异常；（2）系统效率，评估吞吐量（流/秒）、参数规模（存储）和峰值内存使用量（RAM），以验证其是否适合资源受限的物联网（IoT）环境。鉴于实际网络入侵检测系统（NIDS）数据集中的极端类别不平衡（例如，在NF-UNSW-NB15中，攻击样本仅占3.98%），仅依赖准确性可能会产生误导。因此，本研究结合使用了AUC、G-Mean和MCC来全面评估模型在少数类别上的性能。作为与阈值无关的指标，AUC特别适用于本研究解决的不平衡分类问题。它评估了模型在所有可能的分类阈值下的区分能力，提供了一个更全面的评估，而不受类别分布的影响。G-Mean衡量了多数类和少数类分类准确性之间的平衡，而MCC则提供了一个可靠的统计比率，只有当预测在混淆矩阵的所有四个类别中都取得良好结果时才会得到高分。

3.4 实验过程和结果分析
3.4.1 二分类实验
本节验证了所提出的NIDS-Mamba模型在NF-UNSW-NB15和NF-CSE-CIC-IDS2018数据集上的有效性，并将其检测性能与各种入侵检测模型进行了比较。这些模型包括经典的机器学习模型随机森林（RF）以及入侵检测领域的代表性模型，如BiLSTM和CNN-BiLSTM [11,36]。选择BERT作为对比模型，是因为它是由多个Transformer编码器块构建的，可以比较Transformer和Mamba架构在入侵检测领域的性能差异。此外，流量结构与自然语言非常相似，而BERT在自然语言领域表现出色。为了提高实验效率，对预训练的轻量级BERT进行了微调。两个数据集的实验结果分别展示在表5和表6中。表5. NF-UNSW-NB15的二分类实验结果。表6. NF-CSE-CIC-IDS2018的二分类实验结果。如上述表格中的实验结果所示，在NF-UNSW-NB15数据集上，NIDS-Mamba模型的检测准确性相比RF提高了3.75%，相比BiLSTM提高了2.56%，相比CNN-BiLSTM提高了2.37%，相比BERT提高了6.47%。与其他模型相比，该模型在精确度和F1分数上也表现出一定的提升。尽管其召回率略低于BERT，但BERT倾向于将大量正常流量误分类为异常流量，导致其他指标得分极低。在NF-CSE-CIC-IDS2018数据集上，NIDS-Mamba模型实现了最佳的检测性能，其准确性、精确度、召回率、假阳性率（FPR）和F1分数分别为98.32%、97.43%、96.53%和96.98%。
为了进一步详细检查NIDS-Mamba的分类性能，图10展示了两个数据集的标准化混淆矩阵。对角线元素表示正确分类的良性流量和恶意流量的百分比。显然，即使在攻击样本极为稀少的NF-UNSW-NB15数据集中，NIDS-Mamba也保持了较高的真正例率（TPR）。值得注意的是，与容易产生过多误报的BERT模型相比，NIDS-Mamba显著降低了FPR，这一点从矩阵左下角的低值可以看出。这一可视化结果强化了所提出的基于Mamba的架构在处理长尾分布时的强大区分能力。图10. 二分类实验的混淆矩阵：(a) NF-UNSW-NB15；(b) NF-CSE-CIC-IDS2018。值得注意的是，虽然所有模型都表现出高准确性，但NIDS-Mamba在MCC指标上的优越性能最为明显。在高度不平衡的NF-UNSW-NB15数据集上，NIDS-Mamba的MCC达到了0.7915，显著优于BERT和LSTM变体。这种强大的MCC和G-Mean表明，所提出的Mamba架构并非仅仅通过投票给多数良性类别来获得高准确性，而是真正学习了少数攻击模式的区分特征。在高度不平衡的NF-UNSW-NB15数据集上，其在MCC和AUC方面的优越性能本质上与Mamba块的选择性扫描机制有关。与可能在噪声网络流量中遭受“注意力分散”问题的BERT不同，NIDS-Mamba的内容感知过滤允许模型优先处理与攻击相关的时间特征，同时抑制冗余的背景噪声。这确保了高准确性来自于对少数模式的真正区分学习，而不是对多数良性类别的偏好。
此外，NIDS-Mamba模型在AUC指标上也表现出色。在NF-UNSW-NB15数据集上，其AUC达到了0.9983，高于RF和BiLSTM，并显著优于BERT模型。在NF-CSE-CIC-IDS2018数据集上也观察到了类似的趋势，NIDS-Mamba的AUC接近完美，达到了0.9996。作为与阈值无关的指标，这些优异的AUC值证实了所提出的架构在所有可能的分类阈值下都能保持高真正例率和低假阳性率。这表明模型学习了高度区分的特征表示，即使在处理网络入侵特有的高维和非线性模式时也能提供强大且稳定的检测能力。两个数据集的实验结果都显示，所有模型在NF-UNSW-NB15上的性能都比在NF-CSE-CIC-IDS2018上有所下降。这种下降归因于前者的极端类别不平衡，其中某些恶意流量类别的样本量不到正常流量的0.1%。因此，对低频攻击类型的分类能力显著减弱。然而，NIDS-Mamba比其他模型更好地缓解了类别不平衡问题，在各种指标上保持了稳定性，从而证明了所提出的模型架构在网络入侵检测领域的有效性。

3.4.2 训练和推理效率
本实验的目的是评估NIDS-Mamba的训练和推理效率。训练时间可以通过计时每个批次并除以批次大小，然后对训练过程中使用的所有批次取平均值来测量。为了评估推理时间，实验首先记录单个批次的从开始到结束的推理时间。为了确保结果的稳定性和排除缓存效应，对同一数据批次进行了四次重复测量以确定一个可靠的时间范围。随后，对50个随机选择的批次重复相同的测量过程，并对这些批次的推理时间进行平均。最终结果表示为模型每秒可以处理的流量量（流/秒）。实验结果如下表7所示。表7. 模型每单位时间的流量吞吐量结果。在实验中评估的模型中，训练和推理期间的吞吐量从高到低依次为NIDS-Mamba、CNN-BiLSTM和BERT。从模型架构的角度来看，BERT过大的参数数量导致了大量的计算开销和高的GPU内存使用率，从而限制了其吞吐量。由于其循环架构，CNN-BiLSTM的并行化能力相对较弱，从而限制了其训练和推理速度。相比之下，NIDS-Mamba采用选择性扫描机制而不是卷积进行循环模型计算，结合并行计算能力，大大加快了GPU上的计算速度。在现实世界的网络环境中，对流量检测模型的高实时处理效率的严格要求进一步突显了所提出模型的实际价值。
推理吞吐量的显著提升源于可并行化的硬件感知扫描，它取代了传统循环架构（如BiLSTM）中的顺序处理。虽然Transformer通过二次复杂性实现了并行性，但NIDS-Mamba保持了线性时间复杂性。这使得模型在推理过程中更有效地利用了GPU加速，弥合了高级建模与物联网网关实时需求之间的差距。为了进一步评估模型在资源受限环境中的适用性，我们比较了模型在推理期间的参数规模和峰值内存消耗。经过比较实验后，发现NIDS-Mamba的模型规模显著减小，与CNN-BiLSTM和基于BERT的变体相比。我们的模型仅需要1.12 M参数，大约是标准轻量级BERT模型的1/10。此外，单次流量推理期间的峰值RAM使用量为5.4 MB，表明其与嵌入式物联网网关和工业边缘控制器典型的内存限制兼容。虽然本研究没有直接进行能量测量，但可以从其高吞吐量和紧凑的体积推断出模型的能效。能量消耗定义为功率和执行时间的乘积；NIDS-Mamba的卓越推理速度意味着处理器在每个流量上的高功率状态持续时间显著较短。此外，紧凑的5.4 MB峰值RAM占用量使得模型能够在许多嵌入式平台的内部SRAM中执行，从而最小化了通常与外部内存（例如DRAM）访问相关的能量开销。需要注意的是，我们在GPU加速环境中进行了核心评估以建立性能基准。架构参数经过特别调整，以反映异构物联网层次结构的限制。这种硬件效率的特点是低兆字节的内存需求和百万级别的参数规模，专门用于弥合高性能边缘网关和内存有限的工业物联网边缘节点之间的差距。线性复杂性确保了计算需求在这些设备上的高效扩展，而不会导致通常在基于Transformer的NIDS中看到的“内存墙”问题。

3.4.3 多类分类实验
本实验旨在验证所提出模型对各种类型网络攻击的识别效果。鉴于NF-UNSW-NB15数据集中攻击样本的比例极小，该实验仅在NF-CSE-CIC-IDS2018数据集上验证了不同模型的多类分类性能。由于BERT在二分类实验中未能获得令人满意的分类结果，因此选择了1DCNN-Transformer（MTC）作为替代对比模型[37]。这种架构也采用了Transformer，但其编码器层数量明显少于BERT。此外，本节还包括RF和CNN-BiLSTM作为对比模型。不同模型的整体检测准确性如图11所示。图11. 多类检测准确性结果。检测结果显示，NIDS-Mamba的多类检测准确性为97.43%，在所比较的模型中表现最佳。同样值得注意的是，MTC的检测准确性为97.12%，略低于NIDS-Mamba，但高于CNN-BiLSTM（96.58%）和RF（95.25%）。这表明在NIDS领域，浅层Transformer架构优于深度BERT模型。与传统的RNN及其变体不同，所提出的方法和MTC都利用了注意力机制从序列数据中提取特征，从而在多类流识别任务中实现了稳健的整体检测性能。图12展示了不同模型的多类检测精确度。如图所示，NIDS-Mamba在三种攻击类型（BruteForce、DoS/DDoS和Web Attack）上的检测精确度分别为96.92%、98.45%和95.36%。在正常流量的检测精确度方面，它比MTC低0.22%；在Bot攻击类型上低0.07%；在Infiltration攻击类型上低0.11%。尽管其精确度并非在所有攻击类别中都是最高的，但与其他检测模型相比差异可以忽略不计。因此，从整体来看，NIDS-Mamba在各种流量类型上都表现出出色的检测精确度。图12. 多类检测精确度结果。不同模型的多类检测召回率如图13所示。如图所示，NIDS-Mamba在暴力攻击（BruteForce）、渗透攻击（Infiltration）和网络攻击（Web Attack）方面的检测召回率分别为98.49%、99.22%和97.69%，均达到了最高水平。值得注意的是，网络攻击的召回率至少提高了2.36%。鉴于这类样本在数据集中的比例最小，这表明NIDS-Mamba不仅在大多数攻击类别上保持了高召回率，而且在少数攻击类别上也具备强大的检测能力。图13展示了多类检测的召回率结果。对于“网络攻击”这类隐蔽且频率较低的攻击，其召回率的显著提升归因于Mamba模块与动态稀疏注意力层之间的协同作用。Mamba模块以线性效率执行长序列过滤，而注意力机制则恢复了在纯状态空间模型（SSM）的状态压缩过程中可能丢失的细粒度全局依赖关系。这种混合结构确保了即使是非常微妙的多阶段攻击模式也能被捕捉到，而不会被主导流量所掩盖。图14展示了不同模型的多类检测假阳性率（FPR）结果，NIDS-Mamba在暴力攻击、拒绝服务/分布式拒绝服务（DoS/DDoS）和渗透攻击类型上的FPR分别为0.36%、0.47%和0.37%，均处于最低水平。所有攻击类别的检测FPR都保持稳定且低于1%，这表明即使在流量数据集内部类别不平衡的情况下，该模型也能持续保持较低的误报率。图14展示了多类检测的FPR结果。不同模型在NF-CSE-CIC-IDS2018数据集上的多类F1分数如图15所示，NIDS-Mamba在正常流量类别、暴力攻击、僵尸网络（Bot）、拒绝服务/分布式拒绝服务、渗透攻击和网络攻击类别上的F1分数分别为96.74%、97.69%、97.91%、98.70%和98.48%、96.51%，在暴力攻击、拒绝服务/分布式拒绝服务和渗透攻击类别上取得了最佳F1分数。总之，NIDS-Mamba在处理网络入侵检测任务时，尤其是在数据不平衡和攻击模式复杂的场景下，能够更有效地建模多维特征之间的关系。与基于Transformer的MTC方法相比，所提出的方法在检测小样本或高度隐蔽的攻击类型时表现出更强的适应性和稳定性。图15展示了多类检测的F1分数结果。

4. 讨论
4.1. 研究发现
在本文中，我们探讨了大规模和资源受限网络环境中网络入侵检测系统（NIDSs）面临的基本挑战，特别是涉及物联网（IoT）和传感器网络的情况。通过引入NIDS-Mamba架构，我们旨在实现高检测准确性和高效的实时处理能力，这是边缘计算的关键要求。实验结果表明，NIDS-Mamba取得了出色的检测性能。例如，在NF-CSE-CIC-IDS2018数据集上，该模型在二元分类上的准确率为98.32%，在多类分类上的准确率为97.43%。更重要的是，对于网络攻击等少数攻击类型，其召回率至少比基线模型提高了2.36%。这在物联网场景中尤为重要，因为僵尸网络传播（如Mirai类行为）、侦察扫描和低频渗透事件通常只占总体流量的很小一部分。关键的是，该模型在NF-UNSW-NB15和NF-CSE-CIC-IDS2018数据集上的AUC分数分别为0.9983和0.9996，显示出强大的性能。NIDS-Mamba的高MCC（平均精度-召回率）、G-Mean（平均精度-F1分数）和AUC表现表明，该模型能够有效捕捉这些罕见但关键的攻击模式，而不会偏向于主要的良性流量。高AUC值进一步证实了NIDS-Mamba在所有潜在决策阈值下都保持了出色的区分能力，使其非常适合实际物联网威胁环境。除了准确性外，该模型在吞吐量上也有所提升，每秒能够处理约7533至8463个流量，显著优于基于Transformer的模型（如BERT）。在实际的物联网部署中，边缘网关通常需要处理来自数十到数千个连接设备的流量，而流量率通常远低于这一阈值。因此，所实现的吞吐量表明NIDS-Mamba能够在典型的物联网网关场景中满足实时检测要求，同时仍保留足够的计算能力来处理其他边缘任务。此外，基于Mamba的架构具有线性计算复杂性，能够高效利用硬件资源，从而降低延迟和能耗。这一特性对于功耗和持续运行至关重要的边缘环境尤为重要。

4.2. 与相关工作的比较分析
现有的网络入侵检测研究主要沿着两个方向发展：循环神经网络（RNNs/LSTMs）和基于Transformer的架构。虽然基于LSTM的模型可以捕捉时间依赖性，但其序列性质限制了并行化并降低了吞吐量，使其不太适合高速或实时的物联网环境。基于Transformer的模型通过注意力机制改善了依赖性建模，但由于其二次方的计算复杂性，引入了大量的计算和内存开销，限制了其在资源受限的边缘系统中的应用。最近的专业化架构，如基于GNN和TCN的NIDS，提供了局部或拓扑优势，补充了我们的SSM方法。GNN在检测协调的多阶段攻击方面表现出色，通过分析IP节点的连接模式[22]；然而，图构建和邻居聚合的高计算成本常常阻碍了它们在资源受限的物联网网关中的使用。TCN虽然通过固定大小的感受野有效捕捉局部时间模式，但可能缺乏Mamba选择性机制所具有的动态长距离过滤能力[38]。NIDS-Mamba通过结合轻量级的状态空间和动态稀疏注意力，提供了一种类似于GNN的全局感受野，但具有高级TCN的线性复杂性，从而填补了这一空白。这种混合设计确保了隐蔽的多阶段攻击模式能够被有效捕捉到，而不会被固定窗口卷积模型所忽略。此外，NIDS-Mamba通过结合选择性状态空间建模和注意力机制，在检测性能和计算效率之间实现了更优的平衡。虽然纯Mamba模型的复杂性接近线性，但它们本质上面临“信息瓶颈”，即固定大小的循环状态必须作为所有过去输入的压缩摘要，这可能难以保留识别复杂或隐蔽攻击所需的细粒度历史细节。通过引入动态注意力机制，我们的架构提供了全局感受野，以补偿Mamba的状态压缩，捕捉到纯SSM可能忽略的关键依赖性和多维特征交互。这种协同作用使得在高吞吐量和卓越的建模能力之间取得了平衡，而不会产生与标准Transformer相关的过高成本。此外，最近的研究探索了基于简化CNN、浅层RNN或特征工程机器学习模型的轻量级或面向物联网的NIDS解决方案。虽然这些方法降低了计算开销，但通常牺牲了建模长距离时间依赖性或复杂攻击行为的能力。相比之下，所提出的NIDS-Mamba架构在保持强大表达能力的同时显著提高了效率，从而弥合了轻量级物联网兼容模型和高性能深度学习基础NIDS之间的差距。通过利用SSM和注意力的互补表达能力，NIDS-Mamba确保了在多样化和资源受限的网络场景中的高保真检测。

4.3. 识别的局限性
尽管取得了有希望的结果，但仍存在一些局限性：
(1) 硬件特定的验证和能量量化
一个主要局限性是当前的性能评估是在高性能GPU环境中进行的，而不是在物理资源受限的边缘设备上进行的。虽然工作站基准测试为架构效率提供了稳定的基准，但它们并未完全反映现实世界中异构物联网硬件的复杂性。具体来说，本文缺乏针对特定低功耗硬件的直接能耗指标。此外，尽管峰值RAM和参数占用表明与嵌入式系统兼容，但缺乏片上验证意味着诸如ARM Cortex-M微控制器上的内存延迟和缓存未命中等硬件特定限制尚未量化。
(2) 对长尾攻击分布的敏感性
尽管SMOTE过采样可以缓解类别不平衡，但对于占总流量不到0.1%的极其罕见和隐蔽的攻击，检测敏感性仍然会下降。仅使用过采样技术可能会引入统计噪声或导致对少数类别的过拟合，从而掩盖复杂多阶段入侵的微妙特征。
(3) 对动态威胁环境的适应能力有限
当前模型依赖于使用标记数据集的离线监督训练。在动态物联网环境中，新的攻击模式不断出现，这可能限制了实时适应性。因此，该模型可能难以在没有定期重新训练更新的数据集的情况下实时识别不断演变的零日攻击模式。

4.4. 未来工作
为了克服上述局限性，未来的研究可能会采取以下方向：
(1) 边缘部署和模型压缩
一个关键方向是实现NIDS-Mamba在现实世界边缘硬件平台上的高效部署。这包括应用模型压缩技术，如知识蒸馏、量化和结构化剪枝，以减少计算开销和内存占用[39,40]。未来的实现将针对代表性的边缘设备，包括嵌入式AI平台（例如NVIDIA Jetson）、单板计算机（例如Raspberry Pi）和低功耗微控制器单元（例如ARM Cortex-M系列）。在这些设备上实现高效推理对于实际的物联网安全应用至关重要。为了弥合高级建模和实际部署之间的差距，未来的工作将实现硬件特定的优化，包括8位量化和结构化剪枝。我们计划在从Raspberry Pi 4B到ARM Cortex-M7微控制器的各种物联网设备上部署NIDS-Mamba。这将使我们能够在现实世界的电池驱动场景中使用专业功率分析工具测量实际的节能效果（mJ/流量）。
(2) 提高对罕见和未知攻击的检测能力
可以引入课程学习来指导模型从简单样本到复杂样本的渐进式训练过程[41]。此外，可以使用生成对抗网络（GANs）或扩散模型（diffusion models）来合成高保真的少数攻击流量[41]，从而提高模型从少量样本中提取表示的能力。我们将探索生成对抗网络（GANs）和课程学习来合成高保真的攻击样本，并指导模型进行渐进式训练。
(3) 通过持续学习和元学习提高适应性
为了克服静态监督模型的局限性，NIDS-Mamba可以与元学习或持续学习机制相结合[9,42]。为了从静态检测转向动态防御，未来的研究将将其集成进来，使NIDS-Mamba能够在最少标记数据的情况下适应零日威胁。

热点排行