网络安全事件检测(Muneer, Alvi, Farrakh, 2023; Satyapanich, Ferraro, Finin, 2020; Sun, Ding, Jiang, Xu, Mo, Tai, Zhang, 2023)是事件检测(ED)(Ling, Chen, Lai, & Liu, 2024)的一个子任务,旨在从非结构化文本中识别和分类各种安全事件,并广泛应用于入侵检测、数据泄露监控和异常行为识别。目前,网络安全领域中的事件检测(Muneer, Alvi, Farrakh, 2023; Tang, Guo, Bai, Zhang, 2023)通常涉及在大规模标注的事件数据上训练或微调预训练的语言模型(PLMs),这些模型具有预定义的事件类型用于分类。然而,构建高质量的事件注释成本极高。一方面,由于隐私问题和数据的特殊性,网络安全数据难以获取;另一方面,注释者对触发模式的理解往往不一致(Peterson, Battleday, Griffiths, Russakovsky, 2019; Wang, Baldwin, Verspoor, 2022),这容易导致噪声标签的引入,而使用这些噪声标签作为监督信息可能会误导模型的训练过程,导致在噪声样本上过拟合,在干净样本上欠拟合。
为了解决噪声标签问题,主流的噪声学习方法大致可以分为两类:一类是噪声建模方法(Patrini, Rozza, Krishna Menon, Nock, Qu, 2017; Yao, Liu, Gong, Han, Niu, Zhang, 2021),这些方法通过构建噪声转换矩阵来校正交叉熵损失,或通过将与噪声分布相关的正则化项纳入损失函数来提高模型的鲁棒性。然而,这些方法通常假设噪声与样本特征无关,并且标签遵循独立同分布(IID)条件,这在现实世界中很少成立。另一类是样本选择方法(B?lücü, Rybinski, Dai, Wan, 2024; Han, Yao, Yu, Niu, Xu, Hu, Tsang, Sugiyama, 2018; Zhou, Huang, Zhou, Sun, 2023),这些方法利用神经网络的“记忆效应”或它们估计样本难度的能力,设置固定阈值来过滤低损失或高置信度的样本作为潜在的“干净”样本。例如,经典的Co-teaching方法(Han et al., 2018)交替训练两个网络,并仅用两个网络都认为是干净的样本来更新参数;虽然这减少了噪声干扰,但基于固定阈值的过滤可能会丢弃大量潜在有用的样本,从而导致信息损失。
值得注意的是,尽管这些方法已广泛应用于一般信息提取任务,但它们直接应用于网络安全事件检测时面临独特的挑战:文本包含大量非标准化的表达、行业特定的术语和缩写(例如,零日攻击、APT),以及高度专业的语言。常见的分词器如WordPiece对复合词和日志字段的分割策略与人类的语义认知不一致,导致注释和预测过程中的系统边界偏移(边界噪声)。如图1所示,网络安全事件检测中存在各种类型的标签噪声,其中事件边界噪声是最具代表性的问题之一。例如,在识别钓鱼事件时,复合词“恶意附件”应作为一个完整的触发词进行标注,但由于语义边界模糊或注释者的误解,它经常被错误地截断为“恶意”。当从攻击媒介“附件”中分离出来时,该术语在语义上可能与恶意软件事件类型更接近,从而导致标签错误。此外,在网络安全领域常见的多标签或多义事件上下文中,对称和不对称的标签噪声尤其严重,因为触发类别可能会由于上下文偏移或模型置信度偏差而被错误地分配给其他事件类型。
近年来,LLMs在数据增强和标签注释方面展示了显著的优势,这主要归功于它们强大的归纳推理能力,先前的研究(Chen, Qin, Jiang, Choi, 2024; Xu, Chen, Peng, Zhang, Xu, Zhao, Wu, Zheng, Wang, Chen, 2024)已经探索了利用LLMs来校正原始标签,以减轻人类注释引入的标签噪声。然而,我们的实验表明,LLMs的注释质量对输入数据的质量非常敏感。如图2所示,我们将训练样本格式化为提示,并使用LLM生成标签,这些标签随后作为监督信号来指导SLM的训练。当数据质量高时,LLM的注释显著提高了模型性能,表明它们具有潜在的错误校正能力。然而,当干净样本的比例较低时,LLM的注释性能略低于直接微调的SLM,甚至可能由于推理偏差引入新的标签噪声。为了解释图2中所示的现象,我们分析了限制LLM注释质量的两个主要原因:i) 事件检测任务的复杂性。事件检测要求模型深入理解句子语义,并将其准确映射到预定义的事件类型集(Ma, Cao, Hong, & Sun, 2023)。当LLMs在没有明确指导的情况下直接执行这种细粒度分类任务时,它们往往缺乏与事件类型严格对齐的能力,容易受到复杂句子结构的影响,从而产生幻觉和生成不存在的事件类型(Pang, Cao, Ding, & Luo, 2023)。这导致了图2中所示的低质量数据场景下的性能下降。ii) LLMs在ICL方面的局限性。LLMs的性能在很大程度上取决于上下文示例的质量和提示的设计。在高质量数据设置中,精心制作的上下文示例有助于LLM生成准确的标签;然而,当噪声数据占主导时,LLMs对样本选择和提示构建质量的敏感性[21]使得难以一致地产生正确的事件类型和触发词,最终影响SLM的训练性能。
为了解决网络安全事件检测中的标签噪声问题,特别是由边界不清和语义不确定性引起的噪声,我们提出了NoiseLLM。它结合了用于噪声样本检测的SLM和用于标签校正的大型语言模型LLM。SLM首先使用动态置信度差异机制识别噪声样本,还通过触发词跨度一致性模块检测边界错误。干净样本存储在知识库中,之后用作指导LLM标注的提示。我们进一步引入了Judge-of-Thought(JoT)。JoT生成多个推理路径,比较它们并选择最一致的结果,还提取有用的推理规则来更新知识库。这种设计提高了稳定性并减少了对提示变化的敏感性。本文的主要贡献如下:
•我们提出了NoiseLLM,一个用于鲁棒处理标签噪声的网络安全事件检测协作框架。它使用SLM检测边界级别的噪声样本,并使用LLM通过推理来校正噪声标签。
•我们引入了知识库和JoT策略来提高LLM的稳定性。JoT生成多个推理路径,选择一致的结果,并总结有用的推理规则来细化标签校正。
•我们在三种标签噪声类型上评估了NoiseLLM:对称噪声、实例依赖噪声和边界噪声。实验结果表明,即使在噪声环境中也具有强大的鲁棒性和泛化能力。