TADS-DQN：一种基于触发的自适应欺骗策略演化方法使用深度Q网络

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Modelling》：TADS-DQN: A Trigger-Based Adaptive Deception Strategy Evolution Method Using Deep Q-Networks

【字体：大中小】 时间：2026年06月10日 来源：Modelling 1.5

编辑推荐：

　　作为一种主动防御范式，网络欺骗技术通过构建欺骗性网络环境有效误导攻击者，从而增加攻击操作的成本并给其决策引入不确定性，同时为防御者提供关键响应时间。然而，现有欺骗策略大多基于专家知识预定义的静态规则，缺乏自主智能适应动态攻击场景的能力。这一限制导致策略的适应性

作为一种主动防御范式，网络欺骗技术通过构建欺骗性网络环境有效误导攻击者，从而增加攻击操作的成本并给其决策引入不确定性，同时为防御者提供关键响应时间。然而，现有欺骗策略大多基于专家知识预定义的静态规则，缺乏自主智能适应动态攻击场景的能力。这一限制导致策略的适应性和性能欠佳。为解决这些问题，本文提出了一种自适应网络欺骗防御系统（Adaptive Cyber Deception Defense System，ACDDS）。与现有自适应防御中现成的MDP/DQN框架不同，ACDDS的核心创新是一种场景定制的基于触发的自适应欺骗策略演化方法，使用深度Q网络（Trigger-based Adaptive Deception Strategy evolution method using Deep Q-Networks，TADS-DQN）。研究人员专门将动态欺骗策略优化表述为一个面向网络欺骗的马尔可夫决策过程（Markov Decision Process，MDP）。在该模型中，系统状态表示为状态矩阵，攻击行为定义了智能体交互的环境。TADS-DQN方法采用基于触发的机制：当检测到真实服务受到威胁时，激活一个深度Q网络（Deep Q-Network，DQN）智能体。该智能体以当前系统状态为输入，输出最优重构动作。仿真结果表明，与基线方法相比，TADS-DQN提供了更稳定的防御性能，表现为攻击成功率的波动范围更小、标准差更低。同时，其在真实服务命中率方面实现了与基线方法相当甚至更优的降低效果。

### 论文解读：TADS-DQN——一种基于触发的自适应欺骗策略演化方法

#### 1. 研究背景与问题

随着数字化进程加速，网络空间已成为国家、企业乃至个人生存与发展的关键领域。然而，高级持续性威胁（Advanced Persistent Threat，APT）等复杂网络攻击日益严峻。APT攻击具有高度目标性、隐蔽性和持久性，攻击者通常拥有雄厚资源和技术能力，实施长期、多阶段的入侵以窃取敏感数据或破坏关键基础设施。传统静态签名式防御（如防火墙、入侵检测系统）依赖已知攻击签名或预定义规则，虽能应对已知威胁，但面对APT时暴露出被动性和反应滞后性，攻击者可通过混淆或加密技术轻易绕过。

为扭转攻防不对称态势，网络安全研究逐渐转向动态主动防御，包括移动目标防御（Moving Target Defense，MTD）、拟态防御和博弈论防御。但这些方法面临各自局限：MTD设计不当可能引入高系统开销；拟态防御要求高异构性和同步性；博弈论防御依赖精确收益模型，在复杂真实环境中难以建立。

网络欺骗技术通过部署虚假网络资源（如蜜罐、蜜网）构建逼真的欺骗环境，旨在误导攻击者、消耗其资源并捕获攻击行为。然而，现有欺骗系统大多基于专家知识预设的静态规则，策略缺乏灵活性和智能性，难以适应动态实时攻击场景。高级自适应攻击者容易识别固定欺骗策略，降低防御效果。现有基于深度强化学习（Deep Reinforcement Learning，DRL）的欺骗、MTD和自适应蜜罐分配研究大多直接套用通用MDP和DQN框架，缺乏针对网络欺骗场景的定制化设计，且通常采用单一更新模式。

为克服这些局限，本文提出了一种自适应网络欺骗防御系统（Adaptive Cyber Deception Defense System，ACDDS），其核心创新是TADS-DQN方法。该论文发表在《Modelling》。

#### 2. 主要技术方法

研究人员主要采用了以下关键技术方法：

1. **场景定制的马尔可夫决策过程（MDP）建模**：将动态欺骗策略优化问题形式化为面向网络欺骗的MDP，状态定义为服务状态矩阵，环境定义为实时攻击流量矩阵，动作定义为服务角色重构。

2. **基于触发机制的深度Q网络（DQN）算法**：结合周期性被动更新与威胁事件触发的主动演化，形成双驱动策略更新机制；使用ε-贪心策略平衡探索与利用，并引入优先经验回放（Prioritized Experience Replay）提高学习效率。

3. **动作空间缩减策略**：通过隐式表示“保持原状态”动作以及按攻击流量排序确定关键位置，将动作空间从M×N×K压缩至M×P×K（P为关键服务数），降低训练时间。

4. **奖励函数设计**：综合考虑真实服务受罚、欺骗服务受奖和服务切换开销，通过加权平衡防御性能与系统资源消耗。

5. **触发阈值选择机制**：基于长期合法流量统计（99百分位峰值）、服务压力测试（响应时间超1s时的流量）和常见攻击初始强度，确定触发阈值，避免误激活或延迟激活。

#### 3. 研究结果

##### 3.1 扫描攻击测试

研究人员设计扫描攻击实验，使用ZeNmap探测多周期内服务端口状态。结果显示，服务端口状态在不同周期动态变化，单次扫描信息不足以支撑有效攻击。动态服务突变不仅改变端口可达性，还修改服务横幅和响应行为，迫使攻击者反复验证，显著增加侦察时间和计算资源消耗，从根源上削弱基于静态侦察数据的攻击有效性。

##### 3.2 性能测试

研究人员通过SYN请求包测试系统性能拐点。未保护系统在6000-7000 PPS（packets per second，包每秒）时错误率从60%激增至78%，响应时间在8000 PPS时超过10秒；而保护系统将拐点延迟至约12000 PPS，在25000 PPS极端攻击下响应时间仍低于2.5秒。防御系统将服务可用性阈值从约4000 PPS提升至超过15000 PPS，防御能力提升近三倍，源于动态资源分配将攻击负载分布至多服务器。

##### 3.3 稳定性测试

研究人员首先进行动作空间缩减消融实验，显示缩减后单步延迟显著降低，攻击成功率仅上升0.26个百分点（无统计显著性），实现了计算效率与防御性能的良好平衡。然后，将TADS-DQN与遗传算法（GA）和自适应差分进化（ADE）对比。TADS-DQN在10个连续周期中的7个取得最低攻击成功率（Attack Success Rate，ASR）；首周期训练约需8.5秒，随后9个周期决策时间最短，体现长期高效性。

##### 3.4 DoS攻击测试

研究人员在20轮SYN-FLOOD攻击中比较八种方法（Random、Greedy、PSO、GA、TS、SA、ADE、TADS-DQN）。TADS-DQN平均ASR为14.4%，优于ADE的16%和其他方法。更关键的是，TADS-DQN波动范围最窄（18.66%），标准差最低（4.35%），相比Random波动幅度降低72.3%，相比ADE降低44.2%。配对统计检验显示，TADS-DQN与ADE在平均ASR上无显著差异，但TADS-DQN的方差显著更小（Brown–Forsythe检验，p=0.0257），表明稳定性优势具有统计显著性。

##### 3.5 核心组件消融实验

研究人员设计六种变体，逐一移除核心组件：动作空间缩减、双驱动演化触发、优先经验回放、均衡奖励函数（切换成本项）、DQN引导动态切换、以及降级为基本DQN。结果显示，移除任何组件均导致指标显著恶化：移除动作空间缩减使单步推理时间从72.5 ms激增至216.3 ms（+198.3%）；移除触发机制使ASR上升4.34个百分点、标准差上升3.77个百分点；移除优先经验回放使ASR、标准差和推理时间分别上升2.10、1.80和8.70个百分点；移除切换成本项使系统开销激增4.8个百分点；移除DQN引导使ASR飙升至31.20%（+16.82个百分点）；降级为基本DQN使ASR和标准差分别上升7.76和4.88个百分点。证实各组件独特且不可替代的贡献。

#### 4. 讨论与结论

讨论部分指出，TADS-DQN的优越性能源于五组件的协同赋能，每个组件在实时性、稳定性、经验利用率、实用性和防御准确性方面均有专属贡献。

研究结论：与基线策略相比，TADS-DQN显著降低了合法服务被攻破的概率。与ADE方法对比，虽然攻击成功率的绝对降低幅度为1.63%，但长期波动范围降低了44.2%。表明系统不仅能有效误导和消耗攻击者资源，还能通过主动自适应策略的演化持续增强网络安全与稳定性，为缓解现代APT攻击的隐蔽性和持久性提供了可行的技术路径。

联系信箱：

粤ICP备09063491号

热点排行