利用模拟无标签数据进行自训练的混合ABC-HBA特性优化，以实现鲁棒的入侵检测

《Expert Systems with Applications》：Hybrid ABC–HBA Feature Optimization with Self-Training Using Simulated Unlabelled Data for Robust Intrusion Detection

【字体：大中小】 时间：2026年04月30日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　萨桑吉·哈里昌德拉（Sasangi Harischandra）| 乌·乌·萨曼莎·拉贾帕克沙（U. U Samantha Rajapaksha）| 巴吉亚·纳塔莉·西尔瓦（Bhagya Nathali Silva）| 查迪马尔·贾亚瓦德纳（Chandimal Jayawarden

　　萨桑吉·哈里昌德拉（Sasangi Harischandra）| 乌·乌·萨曼莎·拉贾帕克沙（U. U Samantha Rajapaksha）| 巴吉亚·纳塔莉·西尔瓦（Bhagya Nathali Silva）| 查迪马尔·贾亚瓦德纳（Chandimal Jayawardena）
斯里兰卡信息技术学院计算系，信息技术系，马拉贝，10115，斯里兰卡

**摘要**
网络流量的不断增加和多样性给入侵检测系统（IDS）带来了重大挑战，尤其是在检测极其罕见的攻击类别以及在严重类别不平衡的情况下泛化到以前未见过的威胁时。本研究提出了一种混合入侵检测框架，该框架结合了基于群体智能的特征优化和利用未标记数据模拟的自训练方法来克服这些限制。引入了一种新颖的ABC-HBA特征选择策略，将人工蜂群（ABC）算法的高效探索能力与蜜獾算法（HBA）的强大全局利用能力和快速收敛性相结合，从而获得了一个高度区分性和紧凑的特征子集。然后使用添加了伪标记机制的随机森林（RF）分类器来增强从未标记和未见过的攻击样本中学习的能力，从而有效检测训练集中不存在的新攻击模式。为了进一步缓解严重的类别不平衡问题，应用了一种混合重采样策略。在KDD Cup 1999数据集上的实验评估表明，所提出的框架达到了99.95%的总体准确率和98.16%的检测率，同时在检测极其罕见的攻击类别方面取得了显著改进，包括U2R攻击的92.86%的检测率，这类攻击在数据集中占比不到0.01%。所提出的方法在增强罕见攻击检测和泛化到未见过的威胁方面始终优于基线RF、基于ABC的方法以及几种其他先进的元启发式和深度学习方法，证实了其在实际入侵检测场景中的有效性。

**1. 引言**
随着网络空间的快速发展，创新的网络和计算技术不断进步，显著提高了全球连接性、运营效率以及各个行业的数字化转型（Li, 2018）。这些发展彻底改变了数据在金融机构、能源网格、交通系统和医疗保健服务等关键基础设施中的传输、存储和处理方式。然而，网络空间的这种前所未有的扩展同时也加剧了网络安全挑战，因为网络威胁在复杂性、频率和规模上持续增长，对关键数字系统的可靠性和安全性构成了严重风险（Guan et al., 2017）。

传统上，网络安全依赖于静态防御机制，包括防火墙、入侵检测系统（IDS）和入侵预防系统（IPS）等专门的硬件和软件工具，这些工具部署在网络中的固定点，如节点和网关（Abraham & Bindu, 2021）。这些系统使用预定义的规则集来监控流量、检测异常行为并阻止潜在的入侵。虽然这些基于规则的机制对已知威胁有效，但它们本质上是被动的，缺乏应对快速演变攻击策略所需的适应性，因此越来越无法应对高级持续性威胁（APTs）和零日漏洞（Li, 2018）。此外，自动化和低成本攻击工具的可用性使对手能够发起大规模攻击，压倒静态防御基础设施。

在这种不断变化的威胁环境中，IDS仍然是深度防御架构的基本组成部分；然而，在动态和高流量的网络环境中，它们的有效性往往受到限制。如图1所示，现有的IDS模型——无论是基于规则的还是基于传统机器学习（ML）的——经常存在检测准确率低、误报率高等问题，并且难以识别未见或罕见的攻击模式。这些缺点主要归因于冗余或次优的特征表示、特征优化不足以及在高度不平衡的网络流量条件下的泛化能力差。

**下载：** 下载高分辨率图片（503KB）
**下载：** 下载全尺寸图片

**图1.** 所提出的ABC-HBA模型及其结果的概述。

为了缓解这些限制，许多研究探索了基于ML的IDS方法，这些方法利用智能流量分析和自适应分类技术。经典算法如k最近邻（KNN）（Liao, Vemuri, 2002, Pathak, Pathak, 2020）、朴素贝叶斯（NB）（Mukherjee & Sharma, 2012）、决策树（DT）（Resende & Drummond, 2018）、支持向量机（SVM）（Gao, Tian, Xia, 2009, Vapnik, 2000, YANG, WANG, 2008）和随机森林（RF）（Resende & Drummond, 2018）由于其简单性和计算效率而被广泛采用。然而，尽管在某些情况下实现了高总体准确率，但这些模型在面对复杂、演变或高度不平衡的流量时往往难以保持一致的性能。特别是对于用户到根（U2R）、远程到本地（R2L）和探测攻击等少数攻击类别，检测率仍然很低（Iftikhar, Rehman, Shah, Alenazi, & Ali, 2025），这突显了它们对未见入侵模式的鲁棒性和适应性的局限性。

因此，最近的研究转向了基于深度学习（DL）的IDS架构和元启发式优化技术，以提高检测的鲁棒性和泛化能力。DL模型，包括卷积神经网络（CNN）、循环神经网络（RNN）和长短期记忆（LSTM）网络，在复杂网络环境中展示了改进的特征表示和分类性能（Ullah, Ullah, Srivastava, & Lin, 2024）。同时，元启发式算法如遗传算法（GA）、粒子群优化（PSO）、蚁群优化（ACO）和人工蜂群（ABC）被应用于特征选择和降维，以减少冗余并提高分类器的效率。尽管取得了这些进展，许多现有框架仍然存在计算复杂性高、过拟合以及对罕见或新兴攻击类型敏感度降低的问题，这凸显了需要一种自适应且数据效率高的混合检测方法。

ABC算法因其概念上的简单性、易于实现以及与其他元启发式算法（如ACO和GA）相比控制参数较少而广受认可（Karaboga & Basturk, 2008）。先前的研究表明，ABC通过雇用的蜜蜂、观察者和侦察蜂的协调行为，在探索和利用之间实现了有效的平衡，从而在基准优化和特征选择问题上表现出色（Alatas, 2010, Karaboga, 2005, Karaboga, Akay, 2011）。然而，据报道，当应用于复杂或高维的搜索空间时，ABC的收敛速度相对较慢，局部利用能力不足，特别是在需要快速逃离局部最优解的情景中。相比之下，蜜獾算法（HBA）是一种基于种群的元启发式算法，受到蜜獾动态觅食和狩猎策略的启发，结合了挖掘和寻蜜机制以增强利用能力并加速收敛（Hashim, Houssein, Hussain, Mabrouk, & Al-Atabany, 2022）。自2020年引入以来，HBA因其结构简单、易于使用、计算时间高效和收敛速度加快而引起了广泛的研究兴趣。综合调查研究表明，HBA及其变体已成功应用于各种优化问题，并提出了许多改进和混合方法以进一步提高其利用效率和收敛行为。这些研究强调了HBA在复杂和高维搜索空间中精炼解决方案的强大能力，同时通过自适应搜索行为和多样化的种群移动机制降低了过早收敛的风险（Hassan, Abdullahi, Isuwa, Yusuf, & Aliyu, 2024）。然后使用RF分类器进行可靠的入侵检测，以提高准确率并降低误报率。为了确定合适的分类模型，评估了多种ML算法，包括RF、LR、DT、SVM、梯度提升和XGBoost。虽然一些基于提升的模型在罕见攻击类别上取得了有竞争力的性能，但RF在所有类别上展示了最一致的整体性能、稳定性和泛化能力；因此，它被选为所提出框架的基础分类器。详细比较结果见补充表1。

**表1.** 在KDD Cup 1999数据集上对所提出的ABC-HBA模型和现有方法的比较评估。

**参考文献**
技术 | 准确率 | 精确度 | 召回率 | F1分数
--- | --- | --- | --- | ---
Alomari & Othman (2012) | 蜜蜂算法 + SVM | 95.75% | -- |
Eesa, Orman, & Brifcani (2015) | 墨鱼算法 + DT | 92.05% | -- |
Ogundokun et al. (2021) | PSO + DT | 98.6% | 75.3% | 89.6% | 81.8%
PSO + KNN | 99.6% | 88.5% | 96.2% |
PSO + ANN | 99.78% | 90.1% | 97.1% | 94.2%
Shah & Trivedi (2015) | 反向传播 | 96.7% | 99.97% | 97.27% | 98.57%
Choudhary & Kesswani (2020) | 深度神经网络（DNN） | 96.3% | --- |
Bhati et al. (2020) | XGBoost | 99.95% | --- |
**提出的方法** | 基线（RF） | 99.93% | 95.61% | 90.71% | 92.78%
基线（RF+伪标记） | 99.94% | 93.23% | 95.19% | 94.15%
RF + ABC | 99.88% | 93.50% | 96.63% | 94.98%
RF + HBA | 99.92% | 95.81% | 95.18% | 94.47%
RF + ABC - HBA | 99.95% | 96.93% | 98.16% | 97.54%

尽管在基于ML和DL的IDS方面取得了进展，但检测极其罕见的攻击类别（约0.01%）仍然是一个关键的未解决挑战。现有的特征选择和优化框架主要优化全局准确率，常常会消除与少数攻击模式相关的区分性特征。这导致U2R和R2L等罕见攻击的召回率极低。因此，需要一种专门设计用于在保持全局搜索效率的同时保留少数群体区分性特征的特征选择机制。在这方面，本研究的关键贡献是开发了一种特征选择驱动的框架，专门用于在严重类别不平衡的情况下检测极其罕见的攻击类型。所提出的方法将ABC算法与HBA结合，实现了一个平衡的优化过程，将有效的全局探索与自适应的局部利用相结合。这种混合优化策略有助于保留少数群体区分性特征，同时保持高效的收敛行为。因此，该框架在检测极其罕见的攻击类别方面表现出增强的能力，同时保持了整体分类的稳定性，为高度不平衡的入侵检测场景提供了稳健且实用的解决方案。

所提出的框架旨在检测深度防御架构的边界层和网络安全层中的外部和内部入侵，如图2所示。通过在两个层上运行，该框架增强了对外部威胁（如拒绝服务（DoS）和探测攻击的边界防御，同时监控内部流量以检测横向移动、内部威胁和包括U2R和R2L在内的复杂入侵类型。通过先进的特征选择和混合优化，该框架减少了冗余，优先考虑了区分性属性，并在保持计算效率和可扩展性的同时提高了检测准确率，适用于大规模、高流量的网络环境。

**下载：** 下载高分辨率图片（192KB）
**下载：** 下载全尺寸图片

**图2.** 深度防御架构中用于检测和监控恶意流量的解决方案区域。

本文的组织结构如下：第2节全面回顾了基于元启发式和ML算法的入侵检测方法。第3节描述了所提出的方法。第4节展示了实验结果和分析，第5节概述了未来的研究方向并总结了本文。

**2. 背景和相关工作**
IDS旨在通过识别和响应可能绕过传统防火墙防御的恶意活动来增强网络安全。尽管进行了广泛的研究并开发了许多IDS模型，但设计能够有效泛化到多种攻击类别、适应不断演变的威胁并保持低误报率的系统仍然是一个主要挑战，特别是在多类别和不平衡的数据环境中（Ahmad, Basheri, Iqbal, & Rahim, 2018）。随着攻击策略的不断演变和网络基础设施复杂性的增加，传统入侵检测方法的局限性变得越来越明显，这突显了需要更加适应性和智能的检测框架。

**2.1. 用于入侵检测的ML技术**
ML在各种网络安全应用中已被证明是有效的，包括网络入侵检测、异常检测和威胁分类。
朴素贝叶斯（NB）是一种基于贝叶斯定理的简单而高效的概率分类器（Mukherjee & Sharma, 2012）。NB在实际场景中表现良好，如垃圾邮件过滤、文本分类和入侵检测，因为它在高维数据环境中的可扩展性和效率（Abraham & Bindu, 2021）。Zeng（2024）提出了一种混合模型，用于网络异常检测，该模型将多层感知器和深度神经网络等DL模型与包括DT、RF和SVM在内的经典ML分类器相结合。Kamarudin, Maple, Watson, & Safa（2017）提出了一种基于异常的入侵检测系统，使用集成分类方法来检测Web服务器上的未知攻击。SVM一直是二分类和多分类任务的流行选择（Gao, Tian, Xia, 2009, Kausar, Belhaouari Samir, Abdullah, Ahmad, Hussain, 2011, Vapnik, 2000, YANG, WANG, 2008）。Mukkamala（Janoski）证明了SVM在检测频繁和罕见攻击类型方面的有效性。然而，他们指出，在应用于整个数据集时存在计算效率低的问题，这引发了人们对特征选择和降维的兴趣。Kausar等人（2011）对SVM及其基于核的方法在IDS中的应用进行了全面回顾，强调了它们在提高检测率和减少误报方面的有效性。
KNN是一种基于相似性原理的广泛使用的基于实例的学习分类算法。它使用特征空间中k个最近邻居的多数类来对给定的未知点进行分类。与其他大多数算法不同，KNN通常被称为懒惰学习器，因为它不涉及显式的训练阶段；相反，它存储所有训练数据，并仅在需要分类时才进行计算（Pathak & Pathak, 2020）。廖和Vemuri（2002年）提出了一种基于KNN的算法，用于入侵检测中的程序行为建模，证明了该算法在减少误报和计算开销方面的有效性，同时强调了其潜在的可扩展性和与文本分类技术的相关性。基于决策树的模型，特别是随机森林（RF），已经显示出高准确性和可解释性（Resende和Drummond，2018年）。RF的基本思想是通过结合来自不同数据子集的树的预测结果来减少方差并提高模型的泛化能力（Zhang和Zulkernine，2006年）。这种集成方法在入侵检测（IDS）领域特别有优势，因为在处理复杂的高维网络数据时，泛化能力至关重要（Kathiresan、Karthik、Divya和Rajan，2022年）。研究表明（Farsi、Khan、Bait-Suwailam，2024年；Tavallaee、Bagheri、Lu、Ghorbani，2009年），RF模型能够有效处理数据集中的分类和数值特征混合。Farnaaz和Jabbar（2016年）的研究开发了一种入侵检测模型，使用RF分类器在NSL-KDD数据集上展示了高检测准确率和低误报率，突显了其相对于其他传统分类器的稳健性。Zhang、Zulkernine和Haque（2008年）提出了使用RF算法的误用、异常和混合IDS系统框架，实现了基于模式的入侵检测和基于异常的入侵检测。他们在KDD’99数据集上的实验结果表明，与现有方法相比，该框架具有更高的检测准确率和更低的误报率，特别强调了混合方法的有效性。

Chandrashekhar和Raghuveer（2012年）提出了用于分类的聚类算法。对于入侵检测系统来说，总是拥有标记好的数据集是不现实的。应该有一个适当的系统来对这些未标记的攻击进行分类，以维护安全的网络环境。他们提出的方法使用了K-means算法、模糊C-means算法和Mountain Clustering算法进行分类。Songma、Chimphlee、Maichalernnukul和Sanguansat（2012年）引入了一种基于无监督聚类的入侵检测模型。该解决方案是一个两阶段分类方法：第一阶段使用k-means算法对数据进行聚类；第二阶段使用基于距离的技术识别异常值，并为每个模式分配类别标签。现有的统计异常检测方法，如最近邻方法、K-means聚类或概率分析，在将数据组织成簇时涉及昂贵的点对点计算（Sarasamma、Zhu和Huff，2005年）。他们提出的方法称为多层层次Kohonen网络（K-Map），它使用了单层胜者通吃K-Map算法和多层层次胜者通吃K-Map算法。Aung和Min（2017年）提出了一种结合K-means聚类和RF分类的混合入侵检测模型，与仅使用RF相比，显示出更高的检测准确率和更低的计算成本。最近的研究探索了将深度学习（DL）和区块链技术集成到工业控制系统（ICS）的入侵检测中，旨在提高检测精度同时确保数据完整性和可信度。

IDS领域的最新进展越来越多地关注DL架构，因为它们能够模拟复杂的高维网络流量模式。Jose和Jose（2023年）进行了一项比较研究，评估了DL模型在基于物联网（IoT）的IDS环境中的有效性。他们的分析表明，DNN的准确率为94.61%，而LSTM和CNN的准确率分别为97.67%和98.61%，显示出DL模型在捕捉复杂流量行为方面的优越性，并优于传统的机器学习方法。与此同时，联邦学习作为IDS的一个重要范式逐渐兴起，特别是在分布式和IoT环境中。联邦学习允许在多个节点上进行去中心化的模型训练，而无需共享原始网络数据，从而解决了隐私、可扩展性和数据主权问题。最近的调查（Hernandez-Ramos等人，2025年）强调了联邦IDS框架的日益采用，概述了它们的优势和相关挑战，包括通信开销、模型异构性和对抗性攻击的鲁棒性。尽管DL和联邦学习方法在大型环境中表现出色，但它们通常需要大量的计算资源，并且可能无法明确解决入侵数据集中的极端类别不平衡或特征冗余问题。特别是，基于区块链的DL辅助IDS框架在传统（NSL-KDD）和现代（CICIDS）数据集上表现出色，同时指出了在资源受限的ICS环境中部署时的开放性挑战（Devi Priya、Sethuraman和Khan，2025年）。Pawana、Abella、Lastre、Ko和You（2025年）引入了第一个针对云原生5G网络的特定于漫游的入侵检测数据集，并表明序列感知的DL模型，特别是LSTM和GRU，在严重类别不平衡的情况下，显著优于前馈和卷积架构，在检测罕见的高影响漫游攻击方面表现更好。

2.2 入侵检测的特征选择技术
ML模型通常处理包含大量特征的大型数据集，其中许多特征可能是冗余或不相关的。特征选择是一个关键的预处理步骤，通过减少数据的维度同时保留重要信息来提高模型的准确性和效率（Amiri、Rezaei Yousefi、Lucas、Shakery、Yazdani，2011年；Battiti，1994年）。许多研究人员发现，无关特征的存在会损害学习系统的性能（Balasaraswathi、Sugumaran和Hamid，2017年）。Nimbalkar和Kshirsagar（2021年）强调了特征选择在IoT入侵检测中的重要性，旨在开发训练时间短且性能高的模型。高维数据带来了一系列挑战，这些挑战会显著影响ML模型的性能（Hasan、Nasser、Ahmad和Molla，2016a）。Hasan、Nasser、Ahmad和Molla（2016b）解决了这些问题，强调了特征选择在减轻维度灾难、过拟合、特征冗余和不相关性方面的作用，最终提高了模型的准确性和效率。降维技术大致可以分为特征选择和特征提取方法（Saini和Sharma，2018年）。特征选择是从原始特征集中选择非冗余子集并移除冗余属性的过程。传统的特征选择技术分为四类：过滤器、包装器、嵌入式和混合型（Padmaja、Vishnuvardhan，2016年；Zebari、Abdulazeez、Zeebaree、Zebari、Saeed，2020年）。后来，还采用了一种称为集成特征选择的技术（Lazar等人，2012年）。特征提取是从现有数据集中提取新特征的方法；这是一种非常有效的方法，可以在不丢失数据集中相关特征的情况下减少特征数量（Zebari等人，2020年）。

Ambusaidi、He、Nanda和Tan（2016年）提出了一种基于过滤器特征选择的新型入侵检测方法，称为灵活互信息特征选择（FMIFS）。FMIFS是对现有互信息特征选择（MIFS）和修改后的互信息特征选择（MMIFS）算法的改进（Hoque、Bhattacharyya、Kalita，2014年；Song、Zhu、Scully、Price，2014年）。在他们的工作中，作者将FMIFS算法与最小二乘支持向量机（LSSVM）分类器结合，开发了一种改进的IDS。LSSVM是传统SVM的一种变体，在优化公式中用等式约束代替了不等式约束。这种修改通过将二次规划问题转化为一组线性方程来降低计算复杂性。使用三个基准入侵检测数据集（KDD Cup 99、NSL-KDD和Kyoto 2006+）评估了结合FMIFS的LSSVM-IDS的有效性。实验结果表明，集成模型在分类准确率、检测率、误报率和F值方面优于几种现有的检测系统。在他们的研究中（Louvieris、Clewley和Liu，2013年），提出了一种基于效果的特征识别方法，该方法结合了k-means聚类、NB特征选择和C4.5决策树（DT）分类。这种方法有助于分类相关且统计上显著的特征集，并为方法的有效性提供了统计标准。NB特征选择和Kruskal–Wallis测试的引入使得能够识别统计上显著的特征，通过过滤掉无关数据来减少噪声并提高分析效率。Keerthi Vasan和Surendiran（2016年）研究了噪声数据的重要性、主成分（PCs）的最佳数量以及主成分分析（PCA）在入侵检测中的有效性。该研究调查了使用PCA进行降维对网络流量分析的影响，目的是确定在减少数据维度的同时保持分类准确性的理想PC数量。使用KDD CUP和UNB ISCX数据集的实验评估表明，前10个PC分别实现了99.7%和98.8%的分类准确率，这与使用原始41个和28个特征获得的准确率几乎相同。这表明PCA在保留入侵检测所需数据属性的同时有效降低了维度。此外，该研究还强调了噪声数据对PCA性能的影响，强调了在网络流量数据预处理中减少噪声的重要性。Tan、Jamdagni、He和Nanda（2010年）提出了一种基于LDA的特征选择方法，用于降低基于负载的异常入侵检测的计算成本。

2.3 入侵检测的元启发式特征选择算法
随着技术的快速发展，数据集的体积不断增加。ML技术如分类、聚类、数据分析和特征选择可以用来应对这些挑战。受自然启发的算法，模仿生物和物理过程，在解决这些问题方面也变得非常重要。特别是特征选择受益于这些算法，它们有助于识别最相关的特征并移除冗余特征（P和N，2018年）。Balasaraswathi等人（2017年）提供了IDS特征选择技术的综述，包括受生物启发的算法和非生物启发的算法。作者得出结论，将生物启发算法与其他技术结合使用可以提高性能，并为复杂问题提供有效的解决方案。Ghanem等人（2022年）提出了一种新的方法，称为MOB-EBATMLP。第一步使用多目标BAT算法（MOBBAT）开发基于高效包装器方法的特征选择算法；为了提高IDS性能，下一步使用第一阶段的特征通过最近改进的BAT算法（EBAT）来训练多层感知器（EBATMLP）。Yang、Ye、Yan、Gu和Wang（2018年）提出了一种基于ABC算法的改进NB算法，并在两个公共数据集上进行了测试。实验结果表明，与使用遗传算法的NB分类器相比，提出的方法显著提高了入侵检测准确率，有效识别了广泛的网络攻击并提高了整体网络安全性能。Aghdam和Kabiri（2016年）提出了一种基于ACO的入侵检测方法。该方法将特征数量减少了约88%，并在KDD Cup 99数据集上将检测错误降低了约24%。Lee、Joo、Yang和Honavar（2006年）提出了一种基于遗传算法和蚁群算法的生物启发式特征子集选择方法，结果子集通过神经网络进行了评估。研究结果表明，蚁群算法为归纳学习中的特征子集选择提供了一种有前景的策略。Pandithurai、Venkataiah、Tiwari和Ramanjaneyulu（2024年）提出了用于云环境中分布式拒绝服务（DDoS）攻击检测的混合模型。其中一种方法将HBO用于特征选择，并与Bi-LSTM分类器结合，实现了97%的准确率，优于LSTM、DNN、DBN和ANN等传统模型。这种方法通过优化关键特征并提高分类性能来增强DDoS攻击预测。

ABC算法在优化研究中继续受到广泛关注，因为它在探索-利用平衡和适应动态搜索环境方面表现出色。最近的综合性调查（Ibrahim等人，2025年）记录了ABC算法的许多变体、混合化和改进，包括多目标公式及其在工程、金融、医疗保健和社会科学中的应用。这些研究强调了收敛行为、多样性保持和全局搜索能力的改进。在入侵检测和特征选择的背景下，提出了几种基于ABC的混合方法。Alsaleem（2025年）提出了一种结合ABC和GA的两阶段混合特征选择框架。在他们的方法中，首先应用ABC，然后使用GA作为基于包装器的细化机制。该方法在NSL-KDD、UNSW-NB15和CIC-IDS2017数据集上使用RF和XGBoost分类器进行了评估。尽管有这些进展，现有的基于ABC和混合的优化方法主要集中在提高全局准确性和特征减少上，但往往没有明确解决极端类别不平衡或罕见攻击的保留问题。方法论
在本研究中，通过将机器学习（ML）技术与元启发式优化方法相结合，开发了一种新颖的入侵检测模型，有效检测四种主要类型的攻击。所提出的混合方法在识别异常流量模式和提高检测准确性方面发挥着重要作用，尤其是在检测罕见攻击类型时。该模型的实现分为两个层次：首先使用混合ABC-HBA算法进行特征选择，然后使用模拟的未标记数据进行自训练分类以进行入侵检测。图3展示了所提出的混合入侵检测系统（IDS）框架的详细架构和功能组件。

下载：下载高分辨率图像（1MB）
下载：下载全尺寸图像

图3. 所提出的入侵检测框架的架构

3.1. 数据集
几十年来，研究人员一直推荐使用KDD Cup 1999数据集来创建基于异常的入侵检测系统和其他保护计算机网络的工具（UCI机器学习仓库，1999年）。Stolfo开发了这个数据集，它基于DARPA’98 IDS评估期间收集的信息（Al-Mamory, Jassim, 2013; Proti?, 2018）。KDD Cup 1999数据集包含约500万个连接记录，每个记录大约100字节，这些记录来自七周网络流量的压缩原始（二进制）tcpdump数据，总大小约为4GB。其中约200万个记录来自测试数据。构成KDD训练数据集的490万个单次连接向量每个都有41个特征，并被分类为正常或受攻击状态（Tavallaee等人，2009年）。

本研究作为可行性分析进行，旨在评估所提出框架在检测网络入侵方面的有效性，特别关注极其罕见的攻击类别。主要目标不是对现代网络流量模式进行建模，而是评估在极端类别不平衡情况下（少数攻击类别仅占数据集的约0.01%）基于特征选择的优化框架的有效性。尽管KDD Cup 1999数据集不能完全反映现代流量情况，但它提供了一个受控的基准，可以严格评估该框架在检测极其罕见攻击类别时的鲁棒性。严重的不平衡和明确定义的少数类别（如U2R）创造了一个具有挑战性的优化环境，特征选择方法可能会倾向于多数类别。事实上，尽管许多先前的研究在这个数据集上报告了较高的总体准确率，但对罕见攻击类别的检测性能仍然较低（Bhati, Chugh, Al-Turjman & Bhati, 2020）。通过明确解决数据分布不平衡下的优化偏差，所提出的混合框架提高了对少数类别的敏感性，同时保持了整体的分类稳定性。因此，观察到的在检测低频攻击模式方面的改进支持了所提出方法的可行性和对不平衡的鲁棒性。

由于需要处理的数据量庞大，计算资源需求较高，本研究在训练过程中使用了仅包含原始数据集10%的子集。此外，还使用了修正后的KDD数据集来增强模型的鲁棒性，并评估其对之前未见过的攻击类型的性能。如图3（a）所示，这些数据集中的标记和未标记数据都被纳入训练阶段以进行模型开发。修正后的KDD数据集与10% KDD和完整KDD数据集不同，因为它包含了14种新的攻击类型，用于测试IDS对未知攻击形式的性能。在完整和10% KDD数据集中，总共有24种攻击类型，而修正后的KDD数据集包含38种。数据集主要分为五个类别：正常、DoS、Probe、U2R和R2L。还需要强调的是，KDD的训练数据集和修正后的KDD数据集包含大量属于正常、Probe和DoS类别的攻击，占整个数据集的约99.76%（Araujo, de Oliveira, Ferreira, Shinoda & Bhargava, 2010）。

3.2. 数据预处理
如图3（b）所示，数据预处理阶段通过规范化、编码以及移除不相关或冗余特征来标准化和清洗原始数据集。处理后的数据被划分为训练集和测试集，以确保在特征优化之前的有效学习和无偏模型评估。

3.2.1. 解决数据不平衡的混合方法
在现实世界的数据集中，类别不平衡会显著影响机器学习模型的性能。在本研究中，KDD Cup 1999数据集显示出攻击类别的分布高度不平衡，某些威胁严重代表性不足。为了解决这个问题，采用了一种混合重采样方法，结合了合成少数样本过采样技术（SMOTE）和随机欠采样（RUS），以实现更平衡的类别分布。这种策略增加了少数类别的代表性，同时减少了多数类别的支配地位，从而防止模型偏向于常见的攻击类别。此外，在特征优化阶段之前应用这种重采样方法，可以在更平衡的数据集上评估候选特征子集，支持对少数类别敏感的特征选择，并降低偏好主要提升多数类别性能的特征的可能性。首先，识别出多数类别，然后将样本量小于多数类别50%的类别视为少数类别。为了确保无偏评估并防止数据泄露，数据集首先被划分为训练集和测试集。然后仅对训练集应用SMOTE来生成代表性不足类别的合成样本，从而增加它们在训练数据中的比例。随后，对训练集中的多数类别应用RUS，将其大小减少到原来的50%。这种混合重采样策略确保了更平衡的类别分布，同时保留了有意义的数据特征。通过分析重采样后的类别分布，验证了该方法的有效性。总体而言，这种组合策略使模型能够从更具代表性的数据集中学习，提高泛化性能，减少对多数类别的偏差，并降低过拟合的风险。

3.3. 提出的混合特征优化
ABC算法是由Karaboga（2005年）开发的一种基于群体的元启发式优化技术，用于解决数值优化问题。该算法借鉴了蜜蜂的智能觅食行为。在ABC算法中，三种类型的蜜蜂在优化过程中发挥作用：
- **雇用蜜蜂**负责搜索已知的食物来源（候选解决方案），并将结果传达给观察蜜蜂；
- **观察蜜蜂**分析这些传达的解决方案，并选择最有价值的解决方案，质量更高的解决方案被选中的概率更高；
- **侦察蜜蜂**放弃较差的解决方案，并随机搜索新的合理解决方案，以防止停滞并鼓励探索（Karaboga & Basturk, 2008）。这种协作搜索策略使ABC算法能够在搜索空间中有效平衡探索和利用。

ABC技术是一种基于蜜蜂觅食模式的有效且稳健的特征选择方法。ABC算法通过减少特征集复杂性来提高机器学习模型的准确性。在本研究中，ABC算法被用作特征选择机制，从而优化了有助于入侵检测性能的顶级特征子集。搜索算法分为三个主要阶段：
1. **雇用蜜蜂阶段**：每只蜜蜂通过翻转随机选定的特征位来探索邻近解决方案，并在发现改进时更新其位置；
2. **观察蜜蜂阶段**：根据适应度值概率选择解决方案，并通过局部修改进行进一步细化；
3. **侦察蜜蜂阶段**：用随机生成的特征子集替换表现最差的解决方案，以保持多样性并避免过早收敛。

ABC算法被用来优化最大化分类性能的特征子集。每个第i只蜜蜂表示一个二进制向量xi=[xi1, xi2, …, xiD]，其中xij∈{0, 1}表示第j个特征是否被选中（1），D表示数据集中的特征总数。这种二进制表示方式使算法能够高效地探索不同的特征组合，并评估它们对入侵检测性能的贡献。

1) **适应度评估**
为了确保在极端类别不平衡情况下的鲁棒性，采用宏观平均F1分数作为优化目标。与仅受多数类别性能影响的总体准确率或加权F1分数不同，宏观F1分数对每个类别的重视程度相同，不论其频率如何：
$$
F_1^{\text{macro}} = \frac{1}{C} \sum_{i=1}^{C} F_1^i
$$
其中C表示类别总数，$F_1^i$表示第i类的F1分数。在少数攻击类别可能仅占数据集约0.01%的严重不平衡情况下，仅基于准确率的优化可能导致特征子集忽略少数类别的区分属性。相比之下，宏观F1分数对罕见类别的召回率或精确度损失与多数类别同等惩罚，从而在特征选择过程中强制关注少数类别。这种公式确保优化过程保留有助于检测罕见攻击的特征，而不是偏好多数类别主导的模式。

特征子集xi的适应度基于RF分类器的宏观F1分数定义，并通过一个特征惩罚项进行调整，以鼓励选择较小的子集。适应度值计算如下：
$$
F_{xi} = \alpha \cdot F_1^i - \beta \cdot |S_i| \|F|
$$
其中$F_1^i$表示使用选定特征Si获得的宏观F1分数，$|S_i|$是选定特征的数量，$|F|$是可用特征的总数，α和β是控制准确率和特征减少之间平衡的权重系数。在本研究中，这些参数经验性地设置为α=1.0和β=0.1。

2) **雇用蜜蜂阶段**
在此阶段，每只雇用蜜蜂通过探索其当前解决方案xi的邻域来生成新的候选解决方案vi。在标准ABC算法中，这是通过以下方式实现的：
$$
v_{ij} = x_{ij} + \phi_{ij}(x_{ij} - x_{kj}
$$
其中$x_k$是随机选择的邻近解决方案，$x_{kj}$是xk的第j个维度。参数$\phi_{ij} \in [-1, 1]$控制步长大小。

由于特征选择问题定义在二进制搜索空间中，采用了修改后的更新策略。每个解决方案xi被编码为二进制向量，其中每个位表示特征的包含（1）或排除（0）。为了确保控制和可复制的探索，方程式3中的随机更新被替换为确定性的单位翻转机制。在每次迭代中，只选择一个特征索引j，并相应地翻转该位：
$$
v_{ij} = \begin{cases}
1 - x_{ij}, & j = x_{ij}, \\
0, & \text{否则}
\end{cases}
$$
这种策略确保一次只修改一个特征，从而实现细粒度的局部搜索，同时提高稳定性和可复现性。

3) **观察蜜蜂阶段**
在观察蜜蜂阶段，每个食物来源的选择概率与其适应度值成正比。该概率定义为：
$$
p_i = \frac{F_{i}}{\sum_{n=1}^{N} F_{ni}
$$
这种概率选择机制确保高质量的特征子集更有可能被选中进行进一步细化，使算法能够将其搜索集中在特征空间的更有前景的区域，同时保持多样性。

4) **侦察蜜蜂阶段**
如果某个食物来源在预定义的迭代次数后仍未改进，则用一个新的随机生成的特征子集替换它。这是通过以下更新规则实现的：
$$
x_{ij} = x_{min,j} + \rand(0,1) \times (x_{max,j} - x_{min,j}
$$
在本研究中使用的确定性变体中，表现最差的蜜蜂被替换为一个固定的交替二进制模式，以保持多样性并避免停滞。正式地，新的特征向量定义为：
$$
x_{dnew} = d_{mod2}^{d=0,1,\ldots,|F| - 1}
$$
其中d表示特征索引。这生成了一个如0,1,0,1,…这样的序列，它在迭代过程中是确定性和可复制的。通过使用这种模式，算法在保持多样性的同时避免了随机初始化可能导致的收敛缓慢。

尽管ABC算法在特征选择方面表现出强大的探索能力和鲁棒性，但它存在一些固有的局限性。其中一个主要缺点是由于在后期迭代中探索不足而倾向于过早收敛（Djellali, Djebbar, Zine & Azizi, 2018）。雇用蜜蜂和观察蜜蜂阶段的随机扰动机制可能导致丢弃潜在有用的解决方案，尤其是在高维特征空间中。此外，侦察蜜蜂替换的随机性质可能会减慢收敛速度并降低接近全局最优解的稳定性（Djellali等人，2018）。为了克服这些局限性，ABC算法与HBA（一种最近开发的群体智能方法）相结合，通过其动态密度和觅食模式提供了探索和利用之间的更强平衡（Hashim等人，2022）。ABC和HBA的结合结合了ABC的探索能力和HBA的利用效率，从而实现了更快的收敛速度、改进的特征子集质量和增强的入侵检测分类准确性。混合ABC–HBA特征优化
HBA主要使用两种模式进行操作：探索（digging）和搜索（honey searching），以有效地探索和细化搜索空间。在特征选择的背景下，每个“蜜獾”（honey badger）代表一个候选特征子集，编码为一个二进制向量，其中每个位表示是否选择了某个特定特征。每个“蜜獾”的位置对应一个特征子集，目标是在减少选定特征数量的同时，基于分类性能最小化适应度函数（fitness function）。该算法通过一个密度因子（density factor）自适应地更新位置，控制从探索到利用的过渡过程，从而高效地收敛到最优的特征子集。

在这项研究中，优化过程采用了紧密集成的ABC–HBA元启发式算法（meta-heuristic），其中探索和利用在每次迭代中同时进行（见图3(d)）。首先使用ABC算法通过局部搜索和概率邻域更新（probabilistic neighbourhood updates）生成多样化的特征子集，这一阶段确保了对高维搜索空间的有效探索，并避免了过早收敛。随后，将HBA集成到利用阶段，根据自适应强度和与全局最佳解的距离（distance from the global best solution）调整特征子集，以优化候选解决方案。HBA中的自适应翻转概率（adaptive flipping probability）根据每个候选特征与全局最佳解的接近程度进行调节，从而在保持多样性的同时，精细调整有前景的特征子集。这种集成确保了保留与多数类和少数类都相关的特征，提高了对极其罕见攻击类型的检测能力。

1) 适应度函数（Fitness Function）
在提出的ABC–HBA框架中，使用方程2中定义的相同适应度函数，以确保与ABC算法的一致性。HBA本质上是一种基于最小化的优化方法；因此，目标函数被重新表述为最小化形式，同时保持与原始适应度定义的等价性。具体来说，优化问题定义为：
(8) min(1?Fitness(xi))
这种转换确保了原始公式中适应度值较高的解决方案在HBA搜索空间中对应于较低的目标值。参数α=1.0和β=0.1在ABC和HBA中保持不变，以保持公平性。因此，两种算法都使用相同的评估函数，仅在优化方向（最大化 vs. 最小化）和搜索策略上有所不同。

2) 距离和强度计算（Distance and Intensity Calculation）
为了指导利用阶段，HBA计算候选解决方案xi与全局最佳解xbest之间的欧几里得距离（Euclidean distance），定义为：
(9) di = ∥xi?xbest∥2
然后根据猎物检测行为（prey-detection behaviour）模型计算气味强度（smell intensity）：
(10) Ii = 1/4πdi2
需要注意的是，这种公式并不表示欧几里得空间中的物理扩散；而是一种基于距离的非线性加权机制。在二进制特征空间中，两个解决方案之间的欧几里得距离与它们的汉明距离（Hamming distance）成正比，从而提供了特征子集之间相似性的有意义度量。平方反比关系确保了更接近全局最佳解的解决方案获得更高的强度值，从而增加了被利用的概率，而距离较远的解决方案的影响则迅速减弱。这种自适应衰减机制增强了细粒度的局部搜索，而不需要字面上的物理解释。

3) 自适应概率更新（Adaptive Probability Update）
每个特征维度的自适应翻转概率使用强度值Ii和一个随机缩放因子β∈[0, 1]来计算：
(11) Pi = clip(Ii×β, 0, 1)
这种概率机制控制了利用阶段特征位翻转的程度，平衡了随机探索和自适应收敛。

4) 位置更新规则（Position Update Rule）
根据计算出的自适应概率，候选解决方案中的每个位按以下方式更新：
(12) xij(t+1) = {1?xij(t), if rand(0, 1) < Pi; otherwise }
这种操作引入了一种自适应的局部搜索行为，根据特征位改进的可能性选择性地反转它们，促进了迭代过程中的更好特征组合。混合ABC-HBA特征优化的流程如图4中的算法1所示。

通过混合ABC-HBA算法获得优化后的特征子集后，提出的框架进入使用模拟未标记数据（simulated unlabelled data）的自训练阶段，其中为之前未见过的样本迭代生成伪标签（pseudo-labels）。接下来是监督模型训练、迭代细化和最终的多类入侵分类（multi-class intrusion classification）。这个多阶段过程使模型能够利用标记数据和伪标记数据，同时逐步提高分类性能。

3.5. 优化特征表示（Optimized Feature Representation）
混合元启发式过程产生的优化特征矩阵包含了来自标记数据和模拟未标记数据子集的最相关和最具区分性的属性。这些特征作为基于模拟未标记数据的自训练阶段的统一输入，确保只有高质量且非冗余的特征特性对模型学习有贡献。标记数据和模拟未标记数据共享相同的优化特征表示，从而在伪标签生成和迭代重新训练期间保持一致性。

3.6. 伪标记机制（Pseudo-Labeling Mechanism）
伪标记策略使模型能够通过迭代自训练机制有效利用额外数据（Amini, Feofanov, Pauletto, Hadjadj, Devijver, Maximov, 2025; Yang, Chen, Wang, Wang, Jiang, Dong, Zhang, 2021; Zhang, Li, 2020; Zhu）。然而，伪标记可能会引入噪声或错误的监督，因为生成的标签取决于模型当前的预测。这种次优的监督可能会降低性能，因此需要稳健的学习策略来处理噪声标签（Sharma & Silva, 2026）。修正后的KDD Cup 1999测试数据集旨在为入侵检测系统提供一个现实的评估场景，引入了14种训练集中不存在的新攻击类型，同时排除了训练期间存在的两种攻击类型（UCI机器学习仓库，1999）。这些额外的攻击引入了分布偏移，反映了网络流量中出现之前未见过的威胁的现实世界条件。尽管修正后的数据集是完全标记的，但在训练期间故意保留标签为未标记状态，以模拟真实部署场景中无法轻易获得真实威胁注释的情况。因此，提出的方法采用基于未标记数据的自训练策略，而不是依赖本质上未标记的数据。

为了将未见过的攻击实例分类到更广泛的攻击类别中，采用了伪标记机制。如图5和图6所示，首先在标记数据集的部分上训练RF分类器（RF classifier），以建立能够识别基本流量行为模式的基模型。然后使用该训练模型为修正后的数据集生成伪标签，分配预测标签及其相关的置信度分数。这些伪标记实例随后被纳入训练过程，使模型能够适应新的攻击模式，并在训练数据和测试数据之间的分布差异下提高鲁棒性。

3.6.1. 迭代自训练和模型细化（Iterative Self-Training and Model Refinement）
高置信度的伪标记实例与原始标记数据集合并，形成扩展的训练集：
(14) D′ = Dl∪Dp
其中Dl是原始标记子集。然后在该扩展数据集上重新训练RF分类器，以结合从未标记样本中提取的额外知识。重新训练后，更新后的模型为剩余的未标记数据预测新的伪标签，这个过程重复进行。通过这种迭代过程，分类器的决策边界变得更加通用，使其能够有效识别频繁和罕见的攻击类型。

3.7. 使用RF的学习阶段（Learning Phase with RF）
RF模型由于其鲁棒性、集成平均机制（ensemble averaging mechanism）和对混合数据类型的适应性，成为核心学习组件。它构建多个决策树，每个决策树都在扩展数据集的自助样本（bootstrapped samples）上训练，并通过多数投票（majority voting）聚合它们的输出（Breiman, 2001）。这种集成方法确保了方差减少、泛化能力提高以及在多个入侵类别间的平衡检测（Farsi等人，2024）。RF模型的特征重要性分数也提供了可解释性，揭示了哪些优化属性对特定攻击类型的分类影响最大。

3.8. 推理和多类入侵分类（Inference and Multi-Class Intrusion Classification）
一旦伪标记迭代收敛，最终的RF模型就被用于推理。未见过的测试数据使用训练期间获得的相同优化特征集进行预处理和转换。训练模型将每个实例分类为五个主要网络流量类别之一：Normal、DoS、Probe、R2L和U2R。
每个测试实例xj的分类输出定义为：
(15) yj^ = argmax(c ∈ C, y = c | xj)
其中C={Normal, DoS, Probe, R2L, U2R}表示可能的入侵类别集合。模型为每个实例分配后验概率最高的类别，确保在多种入侵行为之间进行准确区分。这种概率框架提高了检测准确性，并增强了可解释性，因为较低的置信度值可能表示模糊或之前未见过的流量模式。

3.9. 评估指标（Evaluation Metrics）
有许多评估指标可以用来衡量模型的性能。在入侵检测中最常用的指标是f1分数（f1-score）、精确度（precision）和召回率（recall）。这些指标提供了关于分类器有效性的互补见解，特别是在涉及类别不平衡和多类入侵行为的场景中。

4. 结果和讨论（Results and Discussion）
在本节中，我们对提出的框架的性能进行了全面的评估和讨论。为了进行比较分析，开发了两个模型：作为基线的RF模型，以及集成ABC优化算法的RF-ABC混合模型。所有实验都在配备了AMD Ryzen 3 5300U CPU（4核，2.6 GHz）、Radeon显卡和16 GB RAM的机器上进行，运行Windows 11（64位）。所有模型都使用Python 3.10和Scikit-learn实现，没有使用GPU加速。所有模型使用相同的计算环境，以确保训练和测试时间的公平比较。

4.1. ABC和ABC–HBA的收敛行为（Convergence Behaviour of ABC and ABC–HBA）
图7和图8使用适应度值和F1分数展示了ABC和ABC–HBA算法在优化迭代过程中的收敛行为。为了提供全面的理解，适应度演变反映了优化目标，而F1分数用作分类效果的主要性能指标。如适应度收敛图所示，ABC算法由于其基于最大化的公式，适应度值逐渐增加；而ABC–HBA模型则表现出与其最小化目标1?Ffitness(x)一致的趋势。尽管优化方向不同，两种方法都稳定收敛。

4.2. 计算效率分析（Computational Efficiency Analysis）
图9比较了基础RF模型、优化后的ABC模型和提出的混合ABC-HBA模型的计算效率。基础模型训练需要25.36秒，测试需要0.3827秒。ABC算法的集成将训练时间缩短至18.40秒（减少了27.4%），测试时间缩短至0.3546秒（减少了7.3%）。提出的混合ABC-HBA模型取得了最佳性能，训练时间为16.47秒，测试时间为0.1761秒，与基础模型相比分别减少了35.0%和54.0%。两种方法的特征选择计算成本显示，ABC-HBA选择了20个特征，而ABC选择了略少的18个特征。两种方法都使用了20个个体大小和200次迭代，每种方法进行了4000次适应度评估。尽管选择了更多的特征，ABC-HBA所需的总墙钟时间（6663.77秒）仍少于ABC（9024.42秒），表明ABC-HBA在保持紧凑特征子集的同时实现了更高效的优化过程。这些结果表明，ABC-HBA优化不仅提高了分类准确性，还显著降低了计算成本。这种改进归因于混合算法的平衡探索-利用机制，该机制加速了收敛速度，并能够选择出更紧凑、更有效的特征子集。因此，混合ABC-HBA模型在计算上高效，实际适用于实时入侵检测应用。

图9. 训练和测试时间比较。

表1展示了所提出的ABC-HBA模型与KDD Cup 1999数据集中报告的代表性先进混合元启发式和基于DL的入侵检测方法在关键分类指标（包括准确性、精确度、召回率和F1分数）上的比较评估。基础模型（RF+伪标记）的准确率为99.94%，而ABC模型的准确率略低，为99.88%。所提出的ABC-HBA模型达到了最高的准确率99.95%，表明在整体预测性能上有所提升。在F1分数方面，ABC-HBA模型达到了97.54%，分别比基础模型（94.15%）和ABC模型（94.98%）高出约3.35%和2.52%。同样，混合模型的召回率和精确度值（98.16%和96.93%）也超过了其他两种模型，证实了其在保持低误报率的同时正确识别攻击实例的能力。这些结果表明，将ABC算法与HBA结合使用有效地增强了探索和利用能力，从而改善了特征选择并提高了分类能力。所有评估指标上的一致性能提升凸显了所提出的ABC-HBA模型的鲁棒性和可靠性。

表3展示了基础RF模型、ABC优化模型和所提出的混合ABC-HBA模型在五个主要类别（DoS、Probe、R2L、U2R和Normal）上的分类性能。比较评估显示，混合优化方法在所有类别上都实现了卓越或可比的性能，特别是在检测少数和低频攻击类型方面取得了显著改进。

表2. 五次独立运行中的稳定性分析。

图10展示了五种攻击类别（DoS、Probe、R2L、U2R和Normal）的接收者操作特征（ROC）曲线及其对应的曲线下面积（AUC）值。AUC-ROC指标提供了每个模型在不同阈值下区分正例和负例能力的整体评估。所有三个模型的ROC曲线都非常高且紧密重叠，AUC值接近1.0，表明每个模型在真正例率（TPR）和假正例率（FPR）之间取得了出色的平衡。曲线之间的相似性表明，即使没有优化，所有模型也能够有效区分KDD Cup数据集中的正常流量和攻击流量。这是由于数据集的特征模式分离良好以及RF的固有集成结构增强了稳定性并防止了过拟合。

图11为每种模型生成了精确度-召回率（PR）曲线以及相应的平均精确度（AP）分数，以确保在类别不平衡的情况下进行更可靠的评估。

表4总结了五种模型的泛化性能，使用了NSL-KDD数据集中的未见样本进行外部评估。尽管两个数据集具有相似的特征和攻击类别，但NSL-KDD提供了更平衡且冗余较少的数据分布，允许对模型适应现实世界网络流量的能力进行真实检验。NSL-KDD验证子集包含34个样本，分布如下：DoS = 11、Probe = 5、R2L = 3、U2R = 2和Normal = 13。由于少数类别的样本数量极少，观察到的准确性对即使是少量的错误分类也非常敏感。例如，错误分类一个U2R样本就会使类别准确性降低50%，整体准确性降低约2.94%。因此，观察到的50%验证准确性并不表示RF模型的失败，而是由于样本数量有限和类别不平衡导致的统计不稳定性。

表4总结了五种模型的泛化性能，使用了四个评估指标：验证准确性、精确度、召回率和F1分数。结果表明，基础（仅RF）模型、基础（RF+伪标记）模型、ABC优化模型和HBA优化模型以及ABC-HBA模型在泛化性能上存在明显层次差异。基础模型在训练阶段虽然实现了极高的准确性，但在未见NSL-KDD样本上的验证准确性仅为50.00%，精确度（28.67%）、召回率（27.27%）和F1分数（22.76%）相对较低。这表明基础模型容易过拟合，捕捉到了数据集特定的规律性而非普遍的攻击模式。ABC优化模型显示出中等程度的改进，实现了70.59%的验证准确性，以及相应的精确度（66.67%）、召回率（60.89%）和F1分数（57.70%）的提升。这表明ABC算法有助于更好地探索搜索空间，并产生了比基础模型更有效的特征子集。然而，其有限的局部细化能力导致了对主要类别的过度拟合，降低了对U2R攻击等频繁攻击类别的敏感性。

表5展示了五个攻击类别（DoS、Probe、R2L、U2R和Normal）的基线（RF+伪标记）模型、ABC优化模型和ABC-HBA模型的ROC曲线和AUC值。ABC-HBA模型的ROC曲线与基线模型（RF+伪标记）几乎相同，但在左上角附近的曲率略更尖锐，表明分类边界更加稳定和可靠。这些改进源于HBA的整合，它通过自适应搜索压力增强了ABC的利用阶段，使得混合模型能够完全消除假正例，并对DoS等频繁攻击类别具有更强的泛化能力。模型的强烈偏向于频繁出现的类别，表明它主要学习了特定于数据集的模式，而不是能够泛化到不同数据分布中的潜在区分关系。经过ABC优化的模型取得了显著的改进，特别是在Probe和R2L类别上，F1分数分别提高了50%和80%。该模型在DoS召回率（45%）和Normal类别（96%的F1分数）上也有所提升。这些改进反映了ABC算法增强的探索能力，有助于发现更相关的特征子集。然而，模型在一致检测罕见攻击类型（如U2R）方面仍然存在困难（所有指标均为0%）。这一限制源于ABC算法在利用和局部细化方面的局限性，使其无法收敛到稀疏或少数类别的最优决策边界。因此，ABC模型在一定程度上缓解了过拟合问题，但在处理类别不平衡和罕见事件检测方面缺乏鲁棒性。

提出的ABC-HBA混合模型在所有类别上都取得了显著改进，展示了强大的泛化能力和对未见数据的优异适应性。它在DoS和U2R类别上实现了100%的精确度、召回率和F1分数，在Probe类别上实现了91%的F1分数，在R2L（50%）和Normal（96%）类别上实现了更高的F1分数。成功检测到U2R和R2L攻击（这两种攻击在数据集中都较为罕见）突显了模型有效泛化超出训练分布的能力。这一改进主要归功于HBA的强大利用机制，它增强了ABC阶段识别的局部最优解的细化效果。通过结合ABC的全局搜索能力和HBA的自适应局部强化，混合模型实现了探索与利用之间的平衡，从而能够捕捉与少数攻击类别相关的微妙行为模式。

重要的是，尽管所有模型在训练阶段的性能看起来相对相似，但验证结果显示出明显的差异。这一观察表明，ABC-HBA模型不仅仅是在记忆训练分布，而是学习了更加通用和可转移的决策边界。混合模型在常见和罕见类别上的一致检测能力，证实了其在适应性和数据多样化的真实世界环境中部署的潜力。

4.10. 在CIC-IDS2017数据集上的外部验证
ABC-HBA方法使用了由加拿大网络安全研究所开发的CIC-IDS 2017数据集进行评估。该数据集包含了真实的良性流量和14种来自不同用户行为的现代攻击场景，非常适合评估入侵检测模型。为了与基于KDD99的实验进行一致的比较分析，CIC-IDS2017的攻击类别根据其功能特征被映射到四个标准的KDD99类别中。具体来说，良性流量被映射到Normal类别。DoS攻击（包括DoS Hulk、DDoS、DoS GoldenEye、DoS Slowloris和DoS Slowhttptest）被归类为DoS类别，因为它们的共同目标是耗尽系统资源。Probe攻击由PortScan等监控活动表示。R2L攻击包括FTP-Patator、SSH-Patator以及Web Attack–Brute Force、Web Attack–XSS和Web Attack–SQL Injection等基于Web的攻击，外部攻击者试图获取未经授权的访问权限。U2R攻击被映射到Infiltration和Heartbleed类别，因为它们涉及权限提升或敏感信息提取。此外，僵尸网络流量（Bot）也被归类为DoS类别，因为它的行为具有破坏性和服务淹没特性。这种映射确保了CIC-IDS2017和KDD99攻击分类法之间的一致语义对齐。

如表6和表7所示，所提出的ABC-HBA框架的总体准确率为99.88%，在主要攻击类别上展示了强大的精确度和召回率。重要的是，尽管数据集中的类别不平衡严重，模型仍成功识别了罕见且具有挑战性的攻击类型，包括U2R（0.006%），这些攻击在现有的入侵检测系统中通常难以检测到。这些结果突显了所提出框架在传统和现代基准数据集上的鲁棒性和泛化能力。

表6. ABC-HBA入侵检测模型在CIC-IDS 2017数据集上的整体性能指标
| 类别 | 精确度 | 召回率 | F1分数 |
|-----------|---------|---------|---------|
| DoS | 99.78% | 99.59% | 99.68% |
| Probe | 89.68% | 96.58% | 93.00% |
| R2L | 99.70% | 97.79% | 98.73% |
| U2R | 100.00% | 100.00% | 100.00% |
| Normal | 99.92% | 99.95% | 99.93% |

5. 结论
随着现代网络基础设施复杂性和规模的增加，对通用、适应性强且高度准确的入侵检测系统（IDS）的需求变得至关重要。尽管有许多IDS框架可用，但诸如低检测精度、高误报率和对未见网络行为的有限泛化能力等挑战仍然未能得到充分解决。本研究提出了一种ABC-HBA混合模型，以提高入侵检测性能，特别是在不平衡和异构的网络流量中，主要目标是提高整体检测精度，并显著提升对极其罕见攻击类型的检测率。所提出的方法结合了元启发式特征优化和使用模拟无标签数据进行自我训练的阶段，以增强模型在频繁和罕见攻击类别上的区分能力。最初，特征选择是使用ABC算法进行的。然而，考虑到ABC在局部利用方面的局限性，将其与HBA集成以获得更好的局部细化和改进的探索-利用平衡。优化后的特征集随后被用于训练随机森林（RF）分类器，同时使用伪标记来整合模拟无标签数据以进行基于模型的自我训练。

实验结果表明，ABC-HBA混合模型的性能明显优于基线RF模型和ABC优化模型。该模型实现了96.93%的精确度、98.16%的召回率和97.54%的F1分数以及99.95%的总体准确率，反映了其在实现稳健分类和减少误报方面的能力。更重要的是，在基于NSL-KDD数据集和CIC-IDS-2017数据集的外部验证子集上进行评估时，该模型保持了稳定的性能，表明其具有对真实世界流量变化的增强泛化和适应性。ABC-HBA混合模型是一个计算效率高、特征优化且可泛化的IDS框架，能够准确识别频繁和罕见的攻击类型。总体而言，本研究的结果表明，战略性地结合互补的群体智能算法可以开发出更具弹性和有效的入侵检测机制。因此，ABC-HBA混合模型代表了未来IDS发展的一个有前景的方向，因为它能够有效克服每种算法的个别局限性，从而改善特征优化和入侵检测性能。作为未来的工作，所提出的ABC-HBA框架可以扩展到使用流式网络数据进行实时入侵检测，以评估其在动态环境中的可扩展性和适应性，同时整合表示学习和时间行为建模，以捕捉演变中的零日攻击（Yu, Lei, Song, Liu, Wang, 2020; Yu, Zeng, Liu, Wang, Liu, 2025）。

Orcid信息：
U. U. Samantha Rajapaksha 0000-0001-9633-7254
Bhagya Nathali Silva 0000-0002-8545-943X
Chandimal Jayawardena 0000-0003-2644-2117

CRediT作者贡献声明：
Sasangi Harischandra：软件、数据管理、调查、验证、可视化、撰写——原始草稿
U. U. Samantha Rajapaksha：监督、撰写——审阅与编辑
Bhagya Nathali Silva：监督、撰写——审阅与编辑
Chandimal Jayawardena：概念化、方法论、监督、项目管理、撰写——审阅与编辑

热点排行