《Pattern Recognition》:A gated feature fusion model for entity recognition in open-source intelligence
编辑推荐:
开放源情报实体识别模型研究
提出基于门控机制的多粒度特征融合模型,通过预训练语言模型生成上下文词向量,引入扰动增强抗干扰能力,分别编码词性、字符和句法依赖特征,动态加权融合后进行双向序列建模,最终解码为标签。实验表明模型在AutoLC和CoNLL2003数据集上优于现有方法,并验证了混合数据增强的有效性。
冯桂云|陈红辉
国家国防科技大学信息系统工程国家重点实验室,中国长沙,410073
摘要
随着对网络安全需求的增加,开源情报中实体识别技术的深入探索受到了广泛关注。鉴于开源情报的特性,通用的实体识别模型往往存在局限性。为了提高模型性能,本文构建了一个基于门控机制的多粒度特征融合模型。首先,使用预训练的语言模型将文本转换为具有上下文意识的词嵌入。在词嵌入层引入扰动,以避免训练过程中非实体的主导作用并提高模型的鲁棒性。然后分别编码词性、字符和句法依赖特征,并将它们连接成一个表示。设计了一种特征融合方法,用于动态加权预训练模型和先前表示的输出向量。随后,进行双向序列建模以关注上下文信息。最终,将融合特征映射到标签空间,并根据全局依赖关系将向量解码为标签。在两个公共数据集上评估了模型的性能。实验结果表明,所提出的模型优于近年来的其他竞争模型。此外,考虑到领域特定数据集的稀缺性,本文还提出了一种混合数据增强方法并验证了其有效性。
引言
在当今信息技术快速发展的背景下,网络信息系统已成为重要的基础设施。在日益复杂的网络攻击和日益增多的网络威胁面前,网络威胁信息逐渐影响网络基础设施。传统的被动防御措施(如入侵检测)越来越难以应对复杂多变的网络攻击。在日益严峻的网络安全形势下,网络威胁情报(CTI)的价值得到了充分体现。CTI是对各种网络威胁和安全漏洞的响应[1]。开源情报(OSINT)已被证明是CTI的重要来源,而OSINT的利用(尤其是文本分析)带来了诸如实体识别等挑战[2]。
命名实体识别(NER)能够过滤信息并识别从互联网获得的OSINT中的关键术语[3]。NER的基本过程是从文本中识别实体,确定实体的边界,并根据预定义的实体类型进行匹配和标注。因此,NER通常被称为序列标注任务。OSINT中实体识别的本质是自动识别和分类OSINT中的关键实体信息。尽管许多当前的NER模型在纯文本上取得了有希望的结果,但这些模型在转移到噪声自然语言文本(NLT)时性能也会受到影响[4]。OSINT主要来自互联网上的共享平台,尽管其质量参差不齐,但由于内容丰富和来源广泛,它已成为防御网络威胁的重要资源。尽管用于研究的OSINT在后续研究前会进行基本预处理,但通用的NER模型并不适合识别OSINT中的实体。
目前的主要挑战如下:
- •
与一般领域中简单实体(如人物和地点)的识别不同,OSINT包含大量专业术语、更丰富的实体类别和更复杂的实体结构,因此通用NER模型的表现不佳。
- •
由于CTI的特异性,获取语料库的途径有限。即使有开源语料库,标注数据集的质量也各不相同,这会严重影响模型在训练过程中的性能。
- •
与分类任务不同,NER任务的文本除了需要识别和分类的实体外,还包含非实体。OSINT中的非实体数量远多于实体,且不同类别实体的数量不平衡,导致模型在训练过程中容易受到非实体的影响。
面对上述挑战,本文做出以下贡献:
- •
在预训练语言模型(PLMs)的基础上进行预训练和微调,我们补充了词性(POS)、字符和句法依赖性的信息,以便充分捕获OSINT中实体的特征。为此,我们设计了一种多特征融合方法,使不同粒度的特征能够灵活交互,减少信息冗余,并提高模型动态选择信息的能力。
- •
该领域的高质量数据集很少。数据增强不仅在扩展数据集方面发挥作用,而且在提高模型的泛化能力方面更为关键。因此,我们提出了一种混合数据增强方法,并在公共数据集上验证了其有效性。
- •
我们在文本表示的词嵌入层引入扰动,以实现对抗性训练,防止模型被非实体主导,同时提高模型的鲁棒性。
本文的其余部分组织如下。第2节回顾和总结了相关工作。第3节详细描述了所提出的模型,包括文本表示、多粒度特征编码、特征对齐和融合、序列建模和增强以及标签解码。第4节介绍了两个公共数据集、数据增强方法、实验参数、评估指标和实验结果,并将我们的模型与近年来的竞争模型进行了比较。第5节讨论了数据增强、特征融合和鲁棒性对模型的影响,并展示了消融实验的结果。最后,我们总结了我们的工作并提出了可能的未来研究方向。
章节片段
OSINT中的实体识别
由于OSINT中实体的高度专业化,仅依赖专家对大量数据进行准确的手动识别是不够的。因此,OSINT中的实体识别研究应运而生。NER任务起源于20世纪90年代,早期主要依赖于基于规则和基于统计的方法。基于规则的方法根据实体的特征和特定任务要求制定规则,然后进行匹配和
扰动生成
离散文本被表示为神经网络可以处理的向量。BERT能够自动学习和捕获文本的多层次和多维特征。在掩码状态下进行预训练并使用标签进行微调,使BERT在NER任务上表现出强大的能力。对于文本序列,模型的输出是相应的标签序列。BERT处理整个输入序列,对于th
数据集和数据增强
公开可用的OSINT实体识别标准化数据集较少。一些研究人员选择构建自己的数据集来评估所提出模型的性能,但公开可用的数据集仍然有限。为了验证本文所提出模型的性能和泛化能力,实验在两个公共数据集AutoLC [26]和CoNLL2003 [27]上进行。AutoLC数据集来源于国家漏洞
讨论
将讨论数据增强方法、特征融合方法和对抗性训练对模型性能的影响,以避免模型在训练过程中被非实体主导,并提高模型的鲁棒性。基于不同的PLMs进行了消融实验,以证明本文提出模型的有效性。
结论
在信息时代,妥善处理CTI已成为保障网络安全的重要方式。作为CTI的重要来源,OSINT能够通过相对智能的方式从多种来源的异构情报数据中提取关键信息,从而有效发挥CTI的作用。尽管NER技术已经发展了大约30年,但由于
CRediT作者贡献声明
冯桂云:写作——审阅与编辑,撰写——原始草案,可视化,软件,方法论,数据管理,概念化。陈红辉:监督,资源,项目管理,资金获取。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能影响本文报告的工作。
致谢
本工作得到了中国国防科技大学的资助,项目编号为XJZH2024022。