基于多目标遗传算法优化Stacking集成模型的URL钓鱼网页检测研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Big Data and Cognitive Computing》：A Robust Ensemble Learning Approach to URL-Based Phishing Webpage Detection Abdellah Rezoug and Mohamed Bader-el-den

【字体：大中小】 时间：2026年04月28日 来源：Big Data and Cognitive Computing 4.4

编辑推荐：

　　为解决URL钓鱼检测中模型泛化能力弱、概念漂移等问题，研究人员提出SEMG框架，利用多目标遗传算法（GA）优化Stacking集成学习，在5个数据集上实现高精度（Precision）与高召回（Recall）的平衡，显著提升检测鲁棒性。

当钓鱼网站“穿上马甲”：如何用AI“进化论”揪出隐形陷阱？

在数字世界的暗流中，钓鱼攻击正以惊人的速度进化。据统计，仅2024年就记录了近400万起钓鱼事件，造成的经济损失高达数十亿美元。传统的“黑名单”防御机制在自动化URL生成技术面前几乎失效——恶意网站往往在被人发现之前就已经“人间蒸发”。更棘手的是，狡猾的攻击者甚至会在窃取用户凭证后，将用户重定向到真实的官网，完成一场“完美犯罪”。

现有的机器学习（ML）防线同样面临严峻挑战。无论是依赖高维嵌入特征的集成学习，还是基于CNN、GAN的深度学习（DL）模型，都普遍存在“概念漂移”（Concept Drift）的痛点。它们往往过度依赖狭窄的特征集，一旦攻击者改变策略（如使用URL混淆技术），模型的性能就会断崖式下跌。此外，大多数研究只盯着“准确率”（Accuracy）这一单一指标，忽视了在网络安全领域至关重要的“召回率”（Recall）——漏掉一个钓鱼网站（假阴性）的代价，远比误判一个正常网站（假阳性）要惨重得多。

面对这场“猫鼠游戏”，来自国外的Abdellah Rezoug和Mohamed Bader-el-den提出了一种全新的防御思路：与其费尽心思训练一个“全能”的单一模型，不如让算法自己“进化”出一支最适合当前战场的“模型特遣队”。他们开发的SEMG（Stacking Ensemble Models Generator）框架，利用多目标遗传算法（GA），成功解决了URL钓鱼检测中的泛化难题。

技术方法概要

研究基于Mendeley和UCI等5个公开数据集，构建了包含决策树（DT）、随机森林（RF）、支持向量机（SVC）等13种异构基学习器的模型池。核心流程包括：利用SHAP进行Top 20%特征选择以降低维度；采用多目标遗传算法（GA）同时优化Precision和Recall，动态搜索最优的Stacking集成组合；通过投票机制替代传统的元学习器训练，降低过拟合风险。

3. SEMG: Design and Methodology

3.1. The Baseline Models

SEMG并未押注于某一种特定的算法，而是组建了一个包含13种异构模型的“全明星阵容”。这个阵容涵盖了树模型（如DT、ET）、集成模型（如RF、GB）、距离模型（KNN）以及核函数模型（SVC）等五大流派。这种多样性确保了框架能够捕捉到数据中不同维度的模式，为后续的“进化”提供了丰富的基因库。

3.2. The Proposed SEMG Approach

SEMG的核心创新在于将模型选择问题转化为一个多目标优化问题。它不再采用固定的集成策略，而是为每一个特定的数据集“量体裁衣”。其工作流程如下：

1.
基因编码：将每一个可能的集成模型表示为一个二进制染色体，每一位代表一个基学习器是否被选中。
2.
自然选择：利用遗传算法（GA），以Precision和Recall作为双目标，通过锦标赛选择、交叉和变异操作，在庞大的模型组合空间中寻找帕累托最优解。
3.
轻量级Stacking：与传统Stacking需要训练复杂的元模型不同，SEMG采用简单的投票机制聚合基学习器的预测结果，大幅降低了计算开销和过拟合风险。

4. 研究结果

实验结果表明，SEMG在多个数据集上展现出了卓越的鲁棒性。特别是在D2数据集上，它在所有指标上均达到了顶尖水平，同时在其余基准测试中匹配或超越了现有最优方法。更重要的是，这种性能优势是在不进行大量手动调参或特征工程的情况下实现的，证明了其强大的自适应能力。

5. 讨论与结论

这项研究的意义在于，它成功地将“动态进化”的理念引入了网络安全领域。SEMG框架的灵活性使其能够快速适应不断变化的钓鱼攻击手法，而多目标优化则确保了在“抓得准”（Precision）和“抓得全”（Recall）之间找到最佳平衡点。对于未来的网络安全系统而言，这种能够自我进化、自我配置的AI防御机制，或许将成为应对未知威胁的关键武器。

联系信箱：

粤ICP备09063491号