《Technologies》:MiniLM-CNN-LSTM: A Lightweight Hybrid Transformer Model for Malicious URL Detection
编辑推荐:
摘要:网络钓鱼(Phishing)及恶意网站是互联网上的严重威胁,攻击者利用伪造链接诱骗用户窃取隐私信息。由于攻击手段频繁演变,传统检测方法难以识别新型或隐蔽威胁;部分现有深度学习(Deep Learning, DL)模型又存在参数量大、推理慢、难以应用于实时
摘要:网络钓鱼(Phishing)及恶意网站是互联网上的严重威胁,攻击者利用伪造链接诱骗用户窃取隐私信息。由于攻击手段频繁演变,传统检测方法难以识别新型或隐蔽威胁;部分现有深度学习(Deep Learning, DL)模型又存在参数量大、推理慢、难以应用于实时系统的问题。本文提出一种轻量级高精度模型——MiniLM-CNN-LSTM,将轻量Transformer模型MiniLM与由卷积神经网络(Convolutional Neural Network, CNN)和长短期记忆网络(Long Short-Term Memory, LSTM)构成的混合深度学习网络相结合。其中Transformer用于学习URL语义信息,CNN提取重要局部模式,LSTM捕获字符序列顺序信息,同时引入手工构造特征以辅助识别复杂URL。研究人员在两个公开数据集(Phishing Site URLs数据集与Kaggle Malicious URLs数据集)上进行3折交叉验证(3-fold cross-validation)并采用早停(Early Stopping)策略以确保结果公平稳定。MiniLM-CNN-LSTM平均3折交叉验证准确率达98.98%,精确率(Precision)98.63%,召回率(Recall)98.29%,F1值98.46%,假阳性率(False Positive Rate, FPR)0.68%。与最强基线(DistilBERT + CNN-LSTM)相比,准确率提升1.88%、精确率提升3.77%、召回率提升4.17%、FPR降低61.58%。结果表明该模型快速、轻量且高效,可高精度检测钓鱼及恶意链接,适合应用于浏览器、邮件过滤器或防火墙等实时安全系统中。
论文解读:《MiniLM-CNN-LSTM: A Lightweight Hybrid Transformer Model for Malicious URL Detection》
一、研究背景与意义
随着互联网普及,钓鱼(Phishing)及恶意URL攻击日益猖獗,攻击者常通过邮件、短信散发伪装成合法网站的恶意链接以窃取账号密码及敏感信息。传统基于黑名单或规则的方法无法应对零日威胁及URL混淆、同形异义字欺骗(Typosquatting)等对抗性手段;传统机器学习依赖人工特征且难以捕捉深层语义。全尺寸Transformer模型如BERT虽具强语义建模能力,但参数量大、计算开销高,不适合浏览器插件或移动端等低资源实时场景;单独使用CNN或LSTM又缺乏上下文语义理解。为此,研究人员设计并验证了MiniLM-CNN-LSTM这一轻量级混合深度学习架构,兼顾语义理解、局部结构模式提取与序列依赖建模,并融合手工构造词汇特征,旨在实现高精度、低假阳性率及近实时推理,适用于实际网络安全部署。该论文发表于《Technologies》期刊。
二、主要关键技术方法概述
研究人员合并Phishing Site URLs数据集与Kaggle Malicious URLs数据集,去重后得641,125条唯一URL(良性66.77%,恶意33.23%),采用分层采样。原始URL经Microsoft/MiniLM-L12-H384-uncased分词器处理,最大序列长度截断为32 token,同时并行提取手工特征(URL长度、点号数、是否含IP地址、斜杠数、"@"符号数、"="号数、查询参数个数),经最小—最大归一化。MiniLM编码器输出完整token级上下文嵌入矩阵(非仅[CLS]向量),依次通过一维CNN(多滤波器提取n-gram类局部模式)→最大池化(Max-Pooling)→LSTM(捕获时序依赖),LSTM末态隐层与手工特征拼接后送入全连接层,Sigmoid输出二分类概率。训练采用二元交叉熵损失(Binary Cross-Entropy Loss)、AdamW优化器(学习率1×10?5)、Dropout(p=0.5)、早停(耐心=2轮)、批次大小128、最多20轮,并以3折分层交叉验证评估。与DistilBERT+CNN-LSTM等基线在相同环境下对比,另进行消融实验及域级分组交叉验证考察泛化性。
三、研究结果
4.1. Fold Training vs. Validation Accuracy(各折训练与验证准确率)
研究人员绘制三折交叉验证中训练集与验证集准确率随轮次变化曲线,发现验证准确率紧密跟随训练准确率上升趋势,十轮内超99%,无过拟合迹象,表明架构在各数据子集上均具良好学习能力。
4.2. Fold Training vs. Validation Loss(各折训练与验证损失)
训练与验证损失均单调下降且曲线接近重合,早停机制在最优处触发,证实模型未发生过拟合,损失稳定收敛,跨折表现一致。
4.3. Precision, Recall and F1-Score over the Folds(各折精确率、召回率与F1值)
三折精确率、召回率、F1值均高于98%,跨折波动极小,说明模型稳定性强,既能正确识别多数恶意URL(高召回),又较少将正常URL误判为恶意(高精确)。
4.4. Confusion Matrix Analysis(混淆矩阵分析)
各折混淆矩阵显示真阴性(True Negative, TN)与真阳性(True Positive, TP)占比极高,假阳性(False Positive, FP)与假阴性(False Negative, FN)极少;三折平均FPR分别为0.63%、0.57%、0.83%,证实模型保守且可靠,在实际使用中可减少误拦截合法网站。
4.5. ROC Curves(受试者工作特征曲线)
三折ROC曲线逼近左上角,曲线下面积(Area Under the Curve, AUC)=1.00,说明无论阈值如何选取,模型均可将正样本排在负样本之前,分类性能接近理论最优。
4.6. Comparison with the State-of-the-Art Model(与现有先进模型对比)
在同条件3折交叉验证下,MiniLM-CNN-LSTM准确率为98.98%(较最强基线DistilBERT+CNN-LSTM提升1.88%)、精确率98.63%(+3.77%)、召回率98.29%(+4.17%)、F1值98.46%(+3.78%)、FPR降至0.68%(较基线1.77%降低61.58%),全面优于基线,证明MiniLM嵌入结合CNN-LSTM与手工特征可有效增强泛化与降低误报。
4.7. Computational Efficiency and Deployment Analysis(计算效率与部署分析)
MiniLM-L12-H384参数量约33.36 M,加入CNN-LSTM及分类头仅增0.36 M(总33.72 M,增幅1.07%);较BERT-base(109.48 M)减少69.5%,较DistilBERT(66.36 M)减少49.7%。实验硬件下单URL平均推理时延约87 ms,满足近实时网关或批量过滤需求,适合资源受限环境部署。
4.8. Broader Quantitative State-of-the-Art Comparison(更广泛的前沿模型定量比较)
与Transformer-only、CNN-LSTM、GRU混合等数种近期架构横向对比,所提模型获最高准确率(98.98%)与最低FPR(0.68%),证明混合设计及手工特征融合之互补优势。
4.9. Ablation Study and Architectural Analysis(消融实验与架构分析)
去除CNN影响最大(准确率明显下降),说明局部结构模式对URL判别至关重要;去除LSTM或手工特征亦致轻微下降;GRU替代LSTM性能近似(F1值0.9857 vs. 0.9852),表明门控循环单元可作轻量替代;完整混合模型综合表现最优,验证各组件贡献。
4.10. Domain-Level Robustness Evaluation(域级鲁棒性评估)
采用严格同域名仅出现于一折的域级分组交叉验证后,AUC均值降至约0.80,F1均值约0.735且方差增大,召回仍稳定(≈0.986)但精确率波动大、FPR升高,表明模型对域分布偏移敏感,需关注域适应及时间演化问题。
4.11. Probability Calibration Analysis(概率校准分析)
域级验证下校准曲线略偏离理想线,期望校准误差(Expected Calibration Error, ECE)均值≈0.057,排序能力(AUC)保持但概率置信度需温度标度(Temperature Scaling)等后校准方适于风险敏感场景。
四、讨论与结论翻译
讨论指出局限包括:数据集未做时间切分故未考察概念漂移;未做显式对抗性鲁棒性测试(如字符替换、关键字注入等混淆手段);主实验为URL级而非域级交叉验证,虽补充了域级实验并显示性能变异。未来工作将涉及时间验证、域适应、对抗样本鲁棒性测试及可解释人工智能(eXplainable AI, XAI)方法集成,并扩展至多分类/多标签威胁识别。
结论:针对钓鱼及恶意URL检测难题,研究人员提出MiniLM-CNN-LSTM轻量级混合架构,利用MiniLM获取URL上下文语义嵌入,CNN提取局部n-gram模式,LSTM建模字符序列依赖,并融合手工词汇特征。在合并公开数据集上经3折交叉验证证实模型具高准确率(98.98%)、高精确率(98.63%)、高召回率(98.29%)、高F1值(98.46%)及低假阳性率(0.68%),显著优于DistilBERT+CNN-LSTM等基线;模型参数量仅33.72 M,单条URL推理约87 ms,适合浏览器、邮件过滤及防火墙等实时网络安全系统部署。该研究表明轻量Transformer结合序列学习与定制特征工程可显著提升基于URL的威胁检测效率与实用性。