《Future Internet》:Hierarchical Sparse Neural Networks for Structure-Aware Ransomware Detection Under Distribution Shift
编辑推荐:
摘要:行为型勒索软件(Ransomware)检测在标准评估设定下常取得较高准确率,但该结果在面临分布偏移(Distribution Shift)或未见过的勒索软件家族时往往无法泛化。本研究基于包含64个勒索软件家族共4880个样本的MLRan数据集,采用四种评
摘要:行为型勒索软件(Ransomware)检测在标准评估设定下常取得较高准确率,但该结果在面临分布偏移(Distribution Shift)或未见过的勒索软件家族时往往无法泛化。本研究基于包含64个勒索软件家族共4880个样本的MLRan数据集,采用四种评估协议——分层划分(Stratified)、时间感知(Time-Aware)、家族不相交(Family-Disjoint)及开集(Open-Set)协议——对检测性能进行评估,其中家族不相交与开集协议在家族层级构建以限制已知与留出家族间的重叠。研究提出层次稀疏神经网络(Hierarchical Sparse Neural Network, HSNN),一种与特征分类法对齐的模型,利用组级别(Group-Level)与分支级别(Branch-Level)门控(Gating)机制以支持结构化可解释性与模态层面分析。与FlatMLP基线相比,HSNN的平均宏F1值(Macro-F1)略低(0.9839 vs. 0.9860),但表现出更优的校准(Calibration)与更低模型复杂度:具体而言,HSNN将期望校准误差(Expected Calibration Error, ECE)降低34.1%,参数量减少42%;HSNN在随机种子间亦呈现较小变异度与稳定的门激活模式。在开集家族协议下,采用最大软最大化(Maximum-Softmax)新奇度基线时HSNN取得最强宏F1之一(0.9930 vs. FlatMLP的0.9913)。特征分析表明字符串(String-Based)工件仍为主要预测因子,而层次结构将重要性分布于多类行为模态。结果表明当兼顾校准、紧凑性及结构化可解释性时,HSNN是稠密神经网络基线的有力替代方案。
研究背景与意义:
传统基于静态签名(Signature-Based)的恶意软件检测方法因易受代码混淆、加壳及微小改动规避而难以应对新型或零日(Zero-Day)勒索软件。基于沙箱动态分析提取的行为特征(如API调用、注册表操作、文件系统事件等)较静态特征更鲁棒,但现有方法多将异构行为特征拼接为扁平向量(Flat Vector)输入分类器,忽视了行为模态(Behavioral Modality)间的语义层次关系,且多数研究仅在独立同分布(I.I.D.)分层划分下评估,对时间漂移、家族不相交及开集场景下泛化性、校准性与稳定性关注不足。此外,高密度字符串(String)特征虽具强判别力却易引入伪相关(Spurious Correlation)与过拟合风险。针对上述问题,研究人员提出一种与MLRan数据集行为特征分类法(Taxonomy)对齐的层次稀疏神经网络(Hierarchical Sparse Neural Network, HSNN),在保持竞争力的检测性能同时提升模型校准、参数效率及结构化可解释性,并于《Future Internet》发表。
主要关键技术方法:
研究人员使用公开MLRan基准数据集(4880个样本,含2330个勒索软件样本跨64个家族及2550个良性软件(Goodware)样本,483维经递归特征消除(Recursive Feature Elimination, RFE)筛选的动态行为特征,涵盖API、注册表(REGISTRY)、文件系统(FILESYSTEM)、系统调用(SYSTEM)、签名(SIGNATURE)、丢弃工件(DROP_ARTIFACT)、字符串(STRING)及网络(NETWORK)共九大行为模态)。通过确定性规则构建双层特征分类法(细粒度特征组→行为分支(Branch)),据此设计HSNN:底层组编码器(Group Encoder)处理各组特征并经可学习标量门控(Group Gate)加权,上层分支编码器(Branch Encoder)聚合同分支组表示并经分支门控(Branch Gate)调制,末层接多层感知机分类器,损失函数为类别加权交叉熵加组/分支门L1或二元稀疏正则化(Sparsity Regularization),对STRING模态施加放大稀疏惩罚因子;对照模型含经典机器学习(逻辑回归(Logistic Regression, LogReg)、弹性网(ElasticNet)逻辑回归、随机森林(Random Forest, RF)、稀疏线性支持向量机(Sparse Linear SVM)、XGBoost)及神经网络(FlatMLP、BranchOnlyNet、无稀疏变体HSNN_NoSparsity(HSNNNS))。评估协议设四种:P1分层80/20划分、P2按时间戳时序64/16/20划分、P3家族不相交划分(家族≥10样本且良品共享)、P4开集划分(已知家族≥20样本训练,5–19样本家族仅测试),各协议严格隔离样本ID防数据泄露;评价指标含宏F1(Macro-F1)、平衡准确率(Balanced Accuracy)、ROC-AUC、布赖尔分数(Brier Score)及期望校准误差(Expected Calibration Error, ECE);超参数由Optuna对P1全特征设置做50次试验确定后固定复用至其余协议;神经网络均以5个随机种子(7, 21, 42, 99, 137)重复训练取均值并做种子稳定性与门激活Jaccard相似性分析;开展特征消融(Ablation)、去高相关(Decorrelated)冗余分析及开集不确定性估计(最大预测概率补数)。
研究结果:
■ 3.1. RQ1: 预测能力与运行效率(Predictive Power and Operational Efficiency)
经超参数优化后FlatMLP宏F1最高(0.9860),HSNN略低(0.9839,差距约0.21%),逻辑回归接近(0.9835),集成方法稍低(XGBoost 0.9776,RF 0.9775)。HSNN参数量20,430较FlatMLP(35,266)少约42%,期望校准误差ECE最低(0.0108 vs. FlatMLP 0.0164),Brier Score亦最优(0.0122);训练收敛曲线显示HSNN训练/验证损失对齐更平滑稳定。推理延迟因层次结构略高于FlatMLP但仍可接受,表明HSNN以微小幅值精度代价换取显著参数量缩减与校准改善。
■ 3.2. RQ2: 跨评估场景的鲁棒性与泛化性(Robustness and Generalization Across Evaluation Scenarios)
模型排名随协议变化:FlatMLP在P1/P2/P3居首或并列首但在开集P4降至第四;层次模型(HSNN及HSNN_NoSparsity)在最具挑战的P4获最高或并列最高排名(宏F1分别为0.9930与0.9930 vs. FlatMLP 0.9913),说明层次架构有助于跨家族泛化。开集下HSNN兼具低ECE与高宏F1。经典集成模型排名波动大(RF在P2升至并列首而后跌落),LogReg排名稳定处前四。特征扰动实验显示随机缺失(Dropout)影响小,特征值翻转(Feature Flipping)致性能明显下降;去除STRING模态对所有模型宏F1降幅最大(约2–3%),去除API/注册表影响次之,说明现检测高度依赖字符串信号但也受其他行为模态互补支撑。
■ 3.3. RQ3: 特征架构与可解释性(Feature Architecture & Interpretability)
特征变体消融证实STRING贡献最大,去除后各模型宏F1降约2–3%;全特征集与去除高皮尔逊相关(|r|>0.90)对的去冗余特征集性能差异微小(±0.0036内),高相关对多集中于同分支内(注册表与字符串分支为主),跨分支弱相关,STRING与其他模态相关性低具互补性。HSNN学习到的组级与分支级门值跨五种子子标准差约0.02–0.03表现稳定;分支门显示API、STRING及SIGNATURE分支权重偏高(≥0.7),文件系统、系统及丢弃工件偏低但仍>0.5,呈软加权而非硬稀疏,重要性分布符合领域认知的勒索软件行为指征(如加密API调用、特定字符串常量、数字签名特征),证明层次门控捕获与预定义分类法一致的结构化行为模式。
■ 3.4. RQ4: 模型可靠性、校准与稳定性(Model Reliability, Calibration and Stability)
HSNN平均ECE最低(0.0108),Brier Score最低(0.0122),HSNN_NoSparsity校准接近HSNN说明层次结构本身助益校准甚于稀疏项;RF校准最差(ECE 0.0411)。五种子子宏F1变异系数列(Coefficient of Variation, CV)HSNN最小(标准差≈0.0007),性能波动范围窄于对照神经网络;HSNN top-k活跃组Jaccard相似性均值0.531表明所学行为重要性模式具中等以上跨种子一致性。
讨论与结论翻译:
标准I.I.D.评估下FlatMLP宏F1最高,但HSNN以约0.2%宏F1微差实现参数量减42%、ECE降约34.1%并在家族不相交与开集协议下相对排名更优,证明层次稀疏结构具正则化效果提升分布偏移下泛化。模型排名受评估协议显著影响,单一分层划分不足以反映真实部署表现。字符串特征贡献最大但具过拟合风险,去高冗余特征几乎不影响性能,HSNN门值模式符合领域行为分类且跨种子稳定。研究局限含单数据集验证、P3中良性样本跨分区轻微分布重叠、开集检测采用基础最大软最大化概率及未做校准指标置信区间与配对假设检验。结论为:HSNN在接近FlatMLP检测性能的同时提供更优校准、更低复杂度与更好跨家族泛化性,结合结构化门控赋予行为模态层面内在可解释性,是行为型勒索软件检测中稠密网络的有力替代;多协议评估对公正比较至关重要。