NoiseLLM：基于JoT引导的LLM推理机制，用于检测受标签噪声影响的网络安全事件

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Expert Systems with Applications》：NoiseLLM: JoT-guided LLM reasoning for label noise-robust cybersecurity event detection

【字体：大中小】 时间：2026年04月24日 来源：Expert Systems with Applications 7.5

编辑推荐：

　　本文提出NoiseLLM框架，结合小语言模型检测噪声样本与动态置信度差异机制，以及大语言模型LLM的触发词跨度对比学习和JoT推理策略，有效解决网络安全事件检测中的标签噪声问题，实验表明其性能优于现有基线。

张翰|徐炳志|季丽霞

郑州大学网络科学与工程学院，中国河南省郑州市450002

摘要

在网络安全事件检测任务中，带有噪声标签的学习（LNL）问题尤为突出，这主要是由于事件触发词边界模糊和语义不确定性造成的，例如触发词的部分截断或被错误地标记为其他类型。在大型语言模型（LLMs）的时代，尽管数据增强和标签校正可以减轻噪声问题，但我们发现它们在事件检测中的性能在很大程度上依赖于提示示例的构建，不恰当的提示设计容易导致上下文学习（ICL）能力不足，从而产生错误的标签生成。为了解决这一挑战，本文提出了NoiseLLM，这是一个结合了小型语言模型（SLMs）和LLMs的协作式标签校正框架。该框架使用动态置信度差异机制和触发词跨度对比学习来识别和划分不同类型的噪声样本，提取干净的子集以构建高质量的提示示例知识库。随后，为了提高LLMs的ICL能力，本文提出了Judge-of-Thought（JoT）推理策略，通过多路径推理和评分机制指导模型从不同提示中选择一致的标签，并提取有效的规则提示以提高标签生成的一致性和泛化能力。在网络安全数据集TCEDCL和通用数据集ERE-EN上的实验结果表明，NoiseLLM在各种噪声场景下显著优于现有的基线方法。

引言

网络安全事件检测（Muneer, Alvi, Farrakh, 2023; Satyapanich, Ferraro, Finin, 2020; Sun, Ding, Jiang, Xu, Mo, Tai, Zhang, 2023）是事件检测（ED）（Ling, Chen, Lai, & Liu, 2024）的一个子任务，旨在从非结构化文本中识别和分类各种安全事件，并广泛应用于入侵检测、数据泄露监控和异常行为识别。目前，网络安全领域中的事件检测（Muneer, Alvi, Farrakh, 2023; Tang, Guo, Bai, Zhang, 2023）通常涉及在大规模标注的事件数据上训练或微调预训练的语言模型（PLMs），这些模型具有预定义的事件类型用于分类。然而，构建高质量的事件注释成本极高。一方面，由于隐私问题和数据的特殊性，网络安全数据难以获取；另一方面，注释者对触发模式的理解往往不一致（Peterson, Battleday, Griffiths, Russakovsky, 2019; Wang, Baldwin, Verspoor, 2022），这容易导致噪声标签的引入，而使用这些噪声标签作为监督信息可能会误导模型的训练过程，导致在噪声样本上过拟合，在干净样本上欠拟合。

为了解决噪声标签问题，主流的噪声学习方法大致可以分为两类：一类是噪声建模方法（Patrini, Rozza, Krishna Menon, Nock, Qu, 2017; Yao, Liu, Gong, Han, Niu, Zhang, 2021），这些方法通过构建噪声转换矩阵来校正交叉熵损失，或通过将与噪声分布相关的正则化项纳入损失函数来提高模型的鲁棒性。然而，这些方法通常假设噪声与样本特征无关，并且标签遵循独立同分布（IID）条件，这在现实世界中很少成立。另一类是样本选择方法（B?lücü, Rybinski, Dai, Wan, 2024; Han, Yao, Yu, Niu, Xu, Hu, Tsang, Sugiyama, 2018; Zhou, Huang, Zhou, Sun, 2023），这些方法利用神经网络的“记忆效应”或它们估计样本难度的能力，设置固定阈值来过滤低损失或高置信度的样本作为潜在的“干净”样本。例如，经典的Co-teaching方法（Han et al., 2018）交替训练两个网络，并仅用两个网络都认为是干净的样本来更新参数；虽然这减少了噪声干扰，但基于固定阈值的过滤可能会丢弃大量潜在有用的样本，从而导致信息损失。

值得注意的是，尽管这些方法已广泛应用于一般信息提取任务，但它们直接应用于网络安全事件检测时面临独特的挑战：文本包含大量非标准化的表达、行业特定的术语和缩写（例如，零日攻击、APT），以及高度专业的语言。常见的分词器如WordPiece对复合词和日志字段的分割策略与人类的语义认知不一致，导致注释和预测过程中的系统边界偏移（边界噪声）。如图1所示，网络安全事件检测中存在各种类型的标签噪声，其中事件边界噪声是最具代表性的问题之一。例如，在识别钓鱼事件时，复合词“恶意附件”应作为一个完整的触发词进行标注，但由于语义边界模糊或注释者的误解，它经常被错误地截断为“恶意”。当从攻击媒介“附件”中分离出来时，该术语在语义上可能与恶意软件事件类型更接近，从而导致标签错误。此外，在网络安全领域常见的多标签或多义事件上下文中，对称和不对称的标签噪声尤其严重，因为触发类别可能会由于上下文偏移或模型置信度偏差而被错误地分配给其他事件类型。

近年来，LLMs在数据增强和标签注释方面展示了显著的优势，这主要归功于它们强大的归纳推理能力，先前的研究（Chen, Qin, Jiang, Choi, 2024; Xu, Chen, Peng, Zhang, Xu, Zhao, Wu, Zheng, Wang, Chen, 2024）已经探索了利用LLMs来校正原始标签，以减轻人类注释引入的标签噪声。然而，我们的实验表明，LLMs的注释质量对输入数据的质量非常敏感。如图2所示，我们将训练样本格式化为提示，并使用LLM生成标签，这些标签随后作为监督信号来指导SLM的训练。当数据质量高时，LLM的注释显著提高了模型性能，表明它们具有潜在的错误校正能力。然而，当干净样本的比例较低时，LLM的注释性能略低于直接微调的SLM，甚至可能由于推理偏差引入新的标签噪声。为了解释图2中所示的现象，我们分析了限制LLM注释质量的两个主要原因：i) 事件检测任务的复杂性。事件检测要求模型深入理解句子语义，并将其准确映射到预定义的事件类型集（Ma, Cao, Hong, & Sun, 2023）。当LLMs在没有明确指导的情况下直接执行这种细粒度分类任务时，它们往往缺乏与事件类型严格对齐的能力，容易受到复杂句子结构的影响，从而产生幻觉和生成不存在的事件类型（Pang, Cao, Ding, & Luo, 2023）。这导致了图2中所示的低质量数据场景下的性能下降。ii) LLMs在ICL方面的局限性。LLMs的性能在很大程度上取决于上下文示例的质量和提示的设计。在高质量数据设置中，精心制作的上下文示例有助于LLM生成准确的标签；然而，当噪声数据占主导时，LLMs对样本选择和提示构建质量的敏感性[21]使得难以一致地产生正确的事件类型和触发词，最终影响SLM的训练性能。

为了解决网络安全事件检测中的标签噪声问题，特别是由边界不清和语义不确定性引起的噪声，我们提出了NoiseLLM。它结合了用于噪声样本检测的SLM和用于标签校正的大型语言模型LLM。SLM首先使用动态置信度差异机制识别噪声样本，还通过触发词跨度一致性模块检测边界错误。干净样本存储在知识库中，之后用作指导LLM标注的提示。我们进一步引入了Judge-of-Thought（JoT）。JoT生成多个推理路径，比较它们并选择最一致的结果，还提取有用的推理规则来更新知识库。这种设计提高了稳定性并减少了对提示变化的敏感性。本文的主要贡献如下：

•

我们提出了NoiseLLM，一个用于鲁棒处理标签噪声的网络安全事件检测协作框架。它使用SLM检测边界级别的噪声样本，并使用LLM通过推理来校正噪声标签。

•

我们引入了知识库和JoT策略来提高LLM的稳定性。JoT生成多个推理路径，选择一致的结果，并总结有用的推理规则来细化标签校正。

•

我们在三种标签噪声类型上评估了NoiseLLM：对称噪声、实例依赖噪声和边界噪声。实验结果表明，即使在噪声环境中也具有强大的鲁棒性和泛化能力。

部分摘录

带有噪声标签的学习

在成本高昂的注释任务（如网络安全事件检测）中，标签噪声非常普遍，构建鲁棒模型是LNL（Zhang, Zhang, Wang, & Ji, 2025）中的核心挑战。现有方法主要分为噪声建模和样本选择方法。

噪声建模方法旨在通过建模干净标签和噪声标签之间的关系来减少训练偏差。典型的方法包括基于转换矩阵的方法（Xia et al., 2019），这些方法估计噪声

任务定义

给定一个输入句子

x = {w_{1}, w_{2},, w_{n}}

，其中 w_i 表示第 i 个单词，n 是句子长度，事件检测任务的目标是识别句子中的触发词跨度并将它们分类为预定义的事件类型之一

y = {y_{1}, y_{2},, y_{n}}

。每个目标输出可以表示为一个三元组（s, e, y），其中 s 和 e 分别表示触发词的起始和结束位置。

在本文中，我们的任务具有以下特点：i) 数据集包含各种类型的标签噪声，

实验设置

数据集。我们在来自网络安全领域的TCEDCL数据集（Tang et al., 2023）和来自通用领域的ERE-EN数据集（Song et al., 2015）上评估了NoiseLLM的性能。TCEDCL数据集包含18,000篇与网络安全相关的新闻文章，涵盖了9种预定义的事件子类型，反映了网络安全文本的高异质性和复杂语义。ERE-EN数据集包含458篇英文文档，包含38种预定义的事件子类型，代表了事件

案例研究

图11展示了一个用于演示LLM引导的校正应用的UI。

•

初始状态（SecureBERT输出）： 该部分显示了模型由于边界噪声（“零日攻击”）和语义不确定性（“漏洞发现”）而失败的情况。

•

校正（NoiseLLM输出）： 该部分显示了对“Apache Struts中的零日攻击”这一跨度的成功校正以及正确的类型“漏洞影响”。

•

证据（知识库）： 下面的更新指南直接显示了

结论与未来工作

在本文中，我们提出了NoiseLLM，这是一个旨在鲁棒处理网络安全事件检测中噪声标签的协作式标签校正框架。通过结合SLMs的细粒度噪声识别能力和LLMs的推理优势，我们的方法解决了边界模糊性和语义不确定性的挑战。具体来说，我们引入了动态置信度差异机制和跨度级一致性分析，以准确过滤噪声

未引用的参考文献

表A1、表A2、图A1、图A2、图A3。

CRediT作者贡献声明

张翰：概念化、方法论、形式分析、资源、监督、写作——原始草稿。徐炳志：软件、形式分析、调查、可视化、写作——审阅与编辑。季丽霞：数据整理、形式分析、验证。

利益冲突声明

作者声明以下可能被视为潜在利益冲突的财务利益/个人关系：张翰报告称获得了四川省法医学技术重点实验室的财务支持。如果有其他作者，他们声明没有已知的财务利益或个人关系可能影响本文报告的工作。

联系信箱：

粤ICP备09063491号

摘要

引言