《Future Generation Computer Systems》:Enhanced-LLM extraction of CTI from unstructured threat reports. A tough nut to crack or a walk in the park?
编辑推荐:
威胁情报自动化提取与标准化研究,提出基于LLM与RAG的eLLM-CTI方法,将非结构化威胁报告转换为STIX 2.1格式,显著降低人工处理成本并提升工业4.0系统的安全防护能力。
Konstantina Psarrou|Panagiotis Bountakas|Dimitris Eleutheriou|Rafail A. Ellinitakis|Konstantinos Fysarakis|Alexios Lekidis|George Spanoudakis
SPHYNX Technology Solutions,Ringstrasse 17,Zug,6300,瑞士
摘要
构建高度信息丰富且相关的网络威胁情报(CTI)需要大量资源,包括安全分析师、处理能力和大规模存储。这使得获取CTI数据的成本变得过高,导致组织和供应链缺乏保护,从而可能引发严重的安全问题,尤其是在工业4.0等领域;后果可能是灾难性的。本文旨在通过降低生产和时间成本来促进CTI信息的普及。为此,提出了一种基于大型语言模型(LLM)的改进方法,称为eLLM-CTI,该方法可以从非结构化威胁报告中提取威胁情报信息,并将其转换为符合结构化威胁信息表达(STIX)2.1标准的CTI。eLLM-CTI利用了经过检索增强生成(RAG)技术升级的推理LLM(GPT-OSS:20B)作为安全和威胁相关知识库,帮助LLM有效识别威胁相关信息并生成STIX包。评估结果表明,将LLM与RAG结合使用不仅可以提高其识别和分类非结构化威胁相关信息为STIX领域对象(SDO)的能力,还可以根据STIX关系对象(SRO)对这些对象进行关联。通过这种方式,eLLM-CTI有助于自动生成无需安全分析师进一步处理的CTI数据,显著减少分析师的手动工作量,并加快对关键威胁情报的访问速度。
引言
数字技术的进步,如人工智能(AI)、生成式AI和处理能力的提升,导致了更复杂的网络攻击和利用漏洞的方法,使对手采用的手段更加先进,从而导致更大规模和更精确的网络攻击。提供关于对手战术、技术和程序(TTPs)见解的最有效手段是网络威胁情报(CTI)的发现和信息。2024年,全球CTI市场估计为58亿美元,预计到2032年将达到240.5亿美元[1]。
CTI是现代网络安全和安全运营中心(SOCs)不可或缺的一部分,协助安全分析师完成日常任务,如威胁检测与分析、风险优先级排序和事件响应。然而,创建实用且相关的CTI面临诸多挑战。主要挑战包括需要大量人力资源手动分析和分类威胁、耗时的过程以及与现有安全系统的集成问题。特别是,生成CTI所需的数据分析任务涉及(i)非结构化文本的分析,(ii)威胁相关信息的识别(如攻击模式、妥协指标(IOC)、漏洞等),以及(iii)根据STIX关系对象(SRO)关联这些信息以生成全面的、高质量的报告[2]。尽管现有方法通过结合机器学习(ML)、自然语言处理(NLP)和AI改进了数据分析步骤,但在标准化生成的CTI方面仍存在不足,限制了其更广泛的采用和实际应用[3]。
大型语言模型(LLMs)也被用于网络安全任务,并在CTI领域展示了有希望的结果[4]。然而,尽管LLMs能够从事件报告中高效发现威胁情报,但它们根据知名威胁情报标准(如结构化威胁信息表达(STIX)进行分类的有效性尚未得到研究。因此,目前尚不清楚这些解决方案是否可以集成到现有安全系统中,以促进不同组织之间的CTI信息收集和共享。
从非结构化威胁报告中提取标准化格式(如STIX)的CTI信息仍然是网络安全中的一个挑战。这些报告通常由威胁猎人用自然语言编写,其中包含必须准确解读并转换为机器可读格式的关键信息,以实现自动化的威胁检测、共享和事件响应。通常,这项工作需要手动处理,这是一个要求高且耗时的过程。
Siracusano等人[5]在其工作中指出,构建基于结构的标准化威胁情报(即STIX对象和关系的手动注释)需要完美的威胁情报知识以及大量的时间和努力。例如,一组分析师手动处理133份公开可用的非结构化CTI报告花费了几个月的时间。因此,自动化解决方案对于提高CTI活动效率并主动利用这些信息来保护组织至关重要。
CTI在现代网络安全操作中起着关键作用(例如在SOCs中),但由于其高昂的成本和复杂性,历史上大型企业和政府机构难以获得这些服务[6]。AI、ML和LLM的进步为降低运营成本、提高效率以及促进中小企业(SMEs)、初创企业和资源不足的组织采用CTI提供了变革机遇。
鉴于上述事实,本研究旨在回答以下研究问题(RQ):“LLMs能否自动化从非结构化威胁报告中提取标准化威胁情报格式的CTI信息?”
在这项工作中,我们研究了LLMs自主执行此转换的能力,尽量减少人工干预。为此,我们引入了eLLM-CTI,这是一种基于AI的混合方法,用于生成标准化的CTI。eLLM-CTI的核心包含两个模型:一个LLM用于处理非结构化威胁报告的文本信息,另一个大型多模态模型(LMM)用于从威胁报告中出现的图像中提取重要威胁相关信息。为了提高eLLM-CTI的性能,部署的LLM与检索增强生成(RAG)方法相结合,以准确区分威胁相关信息。我们评估了几种LLM配置,并引入了STIX准确性指标来评估模型生成有效且完整的STIX包的准确性。我们的发现表明,在正确的设置下,eLLM-CTI可以从纯文本报告中生成有意义且有效的STIX包。这些结果对于资源有限的环境很有前景,在这些环境中,由于保密性和运营限制,部署基于云的解决方案是不可行的。此外,我们选择在本地实现LLMs,而不是集成常用LLMs的API,主要有两个原因:(a)研究较小模型(即参数较少)在这种复杂任务中的能力;(b)避免与外包模型共享关键的网络安全信息,如漏洞和妥协指标。
总之,本研究的贡献体现在以下几个方面。
- •
引入了eLLM-CTI,这是一种新型的基于LLM的CTI提取和分类方法。
- •
研究了RAG架构在构建CTI数据方面的有效性。
- •
提取威胁情报并将其转换为STIX 2.1格式,以便将其导入威胁管理平台。
- •
使用从公开可用CTI数据源获得的真实数据评估所提出的方法。
- •
分析了eLLM-CTI在工业4.0领域的应用。
本文的其余部分结构如下。第2节概述了现有工作及其面临的挑战。第3节提供了关于STIX标准和RAG的背景信息。第4节详细介绍了所提出方法的设计和实现。第5节对所提出方法进行了评估,第6节进一步阐述了研究结果。第7节进行了全面分析,强调了普及CTI信息的好处。第8节描述了所提出方法在工业4.0领域的应用。最后,第9节提供了结论和未来展望。
相关研究
相关工作
在[4]中,作者提出了一种多代理方法,用于从暗网中提取CTI数据,该方法包括不同的代理来抓取暗网内容、分析文本并将其分类为“黑客攻击”、“恶意软件”和“漏洞”三类。尽管该论文展示了有希望的结果,但由于仅依赖于黑客攻击方法和技术、恶意软件(如勒索软件、木马、间谍软件等)和漏洞,提取的信息较为有限。相比之下,在本文中,我们
背景
本节介绍了所提出方法的核心技术概念。具体来说,它讨论了(i)结构化威胁信息表达(STIX)标准,这是提取威胁情报的目标表示格式;以及(ii)使用大型语言模型(LLMs)进行领域特定信息的提取,包括性能提升技术,如提示工程和检索增强生成(RAG)。这些元素共同
提出的方法
所提出方法(名为eLLM-CTI)的主要贡献在于引入了一种基于LLM的方法,用于从非结构化威胁报告中提取CTI信息。虽然之前的工作专注于提取高层次的威胁相关信息,如CVEs、CWEs和MITRE对抗性战术、技术和通用知识(ATT&CK)框架技术4,但这种方法的目标是提取符合OASIS STIX 2.1标准的标准化CTI评估
本节详细介绍了所提出解决方案的评估方法,包括进行的实验、用于RAG的数据、评估数据集、评估指标以及最终的结果。讨论
将非结构化网络威胁情报(CTI)报告转换为STIX 2.1包的任务非常复杂,不能简单地视为传统的分类问题。与标准文本分类任务不同,eLLM-CTI必须同时(i)识别异构威胁实体,(ii)将它们分配到正确的STIX对象类型,(iii)推断这些对象之间的语义有效关系,这些关系以STIX关系对象的形式表示。CTI的普及
本研究的动机之一是,获取高质量CTI数据通常每年需要数百美元,这使得中小企业难以负担。本节旨在分析利用生成式AI(GenAI)技术普及CTI的好处。这里的评估依赖于行业公认的标准eLLM-CTI在工业4.0领域的应用
工业4.0通过将运营技术(OT)和信息技术(IT)资产相互连接,推动了传统工业操作的演变,从而实现了日常流程的自动化,并减少了构建工业物联网(IIoT)系统时的人工参与[30]。然而,这种互联也使工业4.0系统面临新的、更复杂的威胁和风险。对手通常利用旧的OT系统入侵网络并切换到IT系统结论与未来工作
从非结构化威胁报告中生成实用且相关的CTI(格式为STIX 2.1)仍然是一项具有挑战性的任务。威胁报告通常用自然语言编写,其中包含必须准确解读的关键信息,即不仅要识别重要威胁,还要识别它们之间的关系(例如,将攻击模式与恶意活动和相关威胁行为联系起来)。目前,这项工作主要由CRediT作者贡献声明
Konstantina Psarrou:写作——审阅与编辑、撰写原始草稿、验证、软件开发、方法论研究、形式化分析。Panagiotis Bountakas:写作——审阅与编辑、撰写原始草稿、监督、方法论研究、概念化。Dimitris Eleutheriou:验证、监督、软件开发、方法论研究、形式化分析、数据整理。Rafail A. Ellinitakis:形式化分析、数据整理。Konstantinos Fysarakis:写作——审阅与编辑、监督利益冲突声明
作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。致谢
本研究由欧盟委员会和瑞士教育、研究与创新秘书处(SERI)联合资助,项目包括Horizon Europe计划下的SYNAPSE(授权协议编号101120853)和CUSTODES(授权协议编号101120684),以及欧盟委员会Digital Europe计划下的iSOCaaS项目(授权协议编号101190388)。