《Information Fusion》:Enhancing Strategic Decision-Making via Semantic Inference: An Adaptive Framework for Threat Actor Profiling
编辑推荐:
为应对网络攻击日益频繁和复杂化的挑战,本研究提出了一种创新的自适应框架,利用网络欺骗(Cyber Deception, CYDEC)技术主动诱导攻击者行为并收集对抗信号。该框架通过对信号进行连续分析,推断威胁行为体(Threat Actor)的画像特征,实现了对攻击者行为的预测和对先发制人决策的支持。研究构建了一个集成了风险级别、态度、自动化水平等语义属性的网络威胁情报(Cyber Threat Intelligence, CTI)本体,并通过分层专家系统从网络流量中推断出24个高层次语义属性。实验验证了所提方法不仅能有效欺骗攻击者,还能随其进化,在真实操作环境中提供战术与战略层面的威胁情报。该成果发表在《Information Fusion》期刊上,为构建具备“抗脆弱性”(Antifragility)的动态防御体系提供了新思路。
在当前数字化浪潮下,网络空间已演变为一个充满持续对抗的竞技场。攻击不仅频率激增,其“质量”也日益精进——从利用零日漏洞、滥用合法凭证,到构建隐蔽的恶意基础设施,高级持续性威胁(Advanced Persistent Threat, APT)等高度组织化的攻击行为层出不穷。组织面临的已不再是孤立的入侵事件,而是更具持久性、自动化且隐蔽的威胁,这些威胁能在数周甚至数月内不被察觉地破坏关键服务或供应链。传统的防御手段,如加固边界、部署已知威胁签名,往往在攻击者快速迭代的战术面前显得力不从心。面对“绝对防护不切实际”的现实,一个根本性的问题摆在面前:我们能否构建一种不仅能在压力下存活,更能从压力中学习和成长的防御系统?这正是“抗脆弱性”(Antifragility)理念在网络安全领域的核心呼唤。它要求防御体系将每一次被检测到的攻击,甚至是失败的尝试,都转化为可操作的情报,从而持续优化检测、响应和风险管理流程。然而,现有的许多基于欺骗(Deception)的解决方案多聚焦于检测或遏制,缺乏深入的学习和画像生成能力,未能将对抗互动转化为系统的持续增强。这导致了当前威胁情报的碎片化,难以形成对攻击者动机、技能和行为的连贯、高层次认知,限制了战略决策的效能。
为填补这一空白,来自西班牙穆尔西亚大学信息与通信工程系的Pedro Beltrán López、Manuel Gil Pérez和Pantaleone Nespoli在《Information Fusion》期刊上发表了一项开创性研究。他们提出了一个名为“通过语义推理增强战略决策:威胁行为体画像的自适应框架”的创新方案。该研究的核心是设计一个由网络欺骗驱动的自适应循环系统,其目标不仅是诱捕攻击者,更是通过每一次恶意交互来“了解”对手,并迭代地强化自身防御。研究人员构想,当攻击者被诱入精心布置的欺骗环境(如诱饵系统)时,其每一步操作——探测端口、发动漏洞利用、尝试建立持久化——都会留下高保真的行为痕迹。这些原始的、低级别的网络痕迹,如同犯罪现场的指纹,蕴含着关于攻击者“是谁”以及“想做什么”的丰富信息。
为了从海量数据中提炼出战略价值,研究团队设计并实现了一套完整的技术流水线。其关键技术方法包括:首先,利用CICFlowMeter工具从多个公开网络攻击数据集中提取并处理原始网络流量,生成包含90个定量和定性特征的低级别特征向量。其次,设计了一个基于规则的、分层的专家系统,该专家系统能够将低级别特征聚合,并依据一套逻辑规则顺序推理出24个高层次语义属性,如攻击者的风险等级(RiskLevel)、态度(Attitude)、自动化水平(AutomationLevel)、画像(Profile)、动机(Motivation)、技能(Skills)和知识(Knowledge)等。再次,构建了一个扩展自结构化威胁信息表达(Structured Threat Information Expression, STIX)标准的本体模型,用于对威胁行为体及其相关实体(如TTPs、工具、目标)进行语义丰富的建模。最后,将所有数据存储于Neo4j图数据库,形成可查询的知识图谱(Knowledge Graph, KG),并训练了多种机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL)模型(如随机森林Random Forest、梯度提升Gradient Boosting、多层感知机MLP等)来验证并加速高层次特征的预测。此外,还引入了基于SHAP(SHapley Additive exPlanations)值的可解释人工智能(eXplainable AI, xAI)层,以阐明低级别流量模式对每个高层次属性的贡献,从而增加画像过程的可解释性和分析人员的信任度。
研究结果部分揭示了该框架在各个层面的有效性和洞察:
- •
系统架构与本体设计:研究提出了一个以网络欺骗为核心的闭环自适应框架。该框架集成了诱骗系统、威胁画像流水线和企业网络反馈环。同时,研究扩展了STIX标准,提出了一个包含自动化水平、规避技巧、风险等级、态度、画像、动机、技能、知识等新颖语义属性的威胁行为体本体,为全面、结构化地描述攻击者提供了基础模型。
- •
低级别特征提取与实体构建:通过对来自多个异构场景(如IoT、5G、工业控制系统)的公开数据集进行处理,研究成功地从原始网络流量中提取了90个低级别特征。通过定义威胁依赖的滑动时间窗和分组配置,将相关的双向网络流聚合为代表单个攻击实例的“实体”,为后续分析提供了结构化的输入单元。
- •
专家系统与高层次特征推理:实现的分层专家系统能够基于规则,从聚合后的低级别特征中顺序推断出24个高层次语义属性。相关性分析(Pearson Correlation Coefficient)热图显示,这些高层次特征之间几乎没有强线性相关性,表明每个特征都贡献了独立的语义信息。UMAP降维可视化进一步证实,低级别特征数据中存在的潜在结构与非线性的高层次特征标签(如不同画像、动机)具有良好的一致性,说明专家系统的推断具有数据基础。
- •
知识图谱构建与分析:将超过26,000个威胁行为体实体及其属性、关系导入Neo4j,构建了一个包含近56,000个节点和239,000条关系的知识图谱。该图谱集成了威胁行为体、身份、工具、战术技术与过程(Tactics, Techniques and Procedures, TTPs)等节点。对图谱进行社区发现(如Leiden算法)和可视化分析,可以清晰识别出具有不同行为特征的威胁集群,并能揭示不同画像的攻击者(如国家支持型、犯罪集团)之间共享基础设施或TTPs的“战术收敛”现象,为关联分析和威胁狩猎提供了强大工具。
- •
机器学习模型预测效能:为了验证利用AI模型直接从网络流量预测攻击者特征(无需等待攻击结束或依赖完整的上下文标签)的可行性,研究训练了多种ML/DL模型。结果显示,梯度提升(Gradient Boosting)和随机森林(Random Forest)模型在预测大多数高层次特征时表现优异。例如,在预测“画像”(Profile)时,GBC的F1-macro分数达到0.909;预测“自动化水平”(AutomationLevel)和“技能”(Skills)时接近完美(F1-macro > 0.997)。这表明,仅凭实时的网络流特征,就有可能快速、准确地推断出攻击者的战略属性,为实时响应决策赢得了宝贵时间。
- •
可解释性分析:通过SHAP值分析,研究量化了各个低级别网络特征(如流持续时间、数据包大小统计、TCP标志比例等)对于预测每个高层次语义属性的贡献。这不仅验证了专家系统规则设计的合理性,例如某些流量模式确实与高技能或高自动化攻击相关,更重要的是为ML模型的预测提供了透明的、可审计的解释,增强了安全分析师对自动化画像结果的信任。
结论与讨论部分深刻总结了本项研究的核心贡献与深远意义。该工作成功地构建并验证了一个完整的、自适应的威胁行为体画像框架。它创新性地将主动网络欺骗、语义知识表示和机器学习预测相结合,实现了从被动响应到主动、智能画像的范式转变。与现有技术相比,该框架的突出优势在于其“抗脆弱”特性——系统不仅抵御攻击,更能从每次对抗中学习并增强自身。所提出的扩展STIX本体和构建的知识图谱,为解决威胁情报碎片化、实现跨系统语义互操作提供了可行方案。实验结果表明,该系统不仅能有效诱导和延迟攻击者,更能以高精度(F1-macro > 0.85)实时推断出攻击者的关键战略特征。集成ML模型显著提升了推理速度,而xAI层则确保了决策过程的透明可信。总之,这项研究为网络安全领域贡献了一个集检测、分析、学习、决策于一体的闭环解决方案原型。它表明,未来的防御体系应当是动态的、进化的,能够将每一次威胁事件转化为强化自身、预测未来风险的“养分”,从而在面对日益专业化和复杂的网络对手时,占据更为有利的战略位置。