可解释的深度强化学习在物联网支持的元宇宙医疗保健中的异常检测应用：迈向可信的网络威胁情报

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Research》：Explainable Deep Reinforcement Learning for Anomaly Detection in IoT-Enabled Metaverse Healthcare: Toward Trustworthy Cyber Threat Intelligence

【字体：大中小】 时间：2026年04月24日 来源：Research 10.7

编辑推荐：

　　本文聚焦物联网赋能的元宇宙医疗安全，针对传统异常检测技术存在可解释性低、特征选择不佳、类别不平衡和超参数调优效率不高等挑战，提出了一种创新的异常检测框架。该框架结合了离轨近端策略优化（PPO）、基于SHAP的特征选择、针对类别不平衡的奖励调整以及贝叶斯优化超带宽（BOHB）超参数调优，在NSL-KDD、MAWI和CICIoT2023数据集上取得了先进的检测性能。研究为实现元宇宙医疗环境下的可解释、自适应和高效网络威胁智能提供了有效方案。

想象一下，未来的医疗场景不再是冰冷的诊室，而是沉浸式的虚拟世界。医生可以跨越千里进行远程手术，患者通过可穿戴设备在元宇宙中进行康复训练，实时生理数据在云端交汇分析，这便是物联网（IoT）赋能的元宇宙医疗带来的革命性图景。然而，这幅美好蓝图下暗藏着严峻的网络安全威胁。分布式拒绝服务（DDoS）攻击、端口扫描、恶意探测等网络攻击，可能使高度互联的医疗系统陷入瘫痪，不仅危及患者生命安全，更会彻底摧毁用户对数字医疗的信任基石。为了构筑主动防御的城墙，入侵检测系统（IDS）及其核心的异常检测技术变得至关重要。但现有的检测方法，尤其是基于深度学习（DL）的模型，常常面临几个“老大难”问题：模型决策过程像个“黑箱”，难以解释（可解释性低）；从海量数据中筛选关键特征如同大海捞针（特征选择不佳）；正常流量远多于攻击流量，导致模型“偏科”严重（类别不平衡）；以及为模型寻找最佳设置费时费力（超参数调优效率低）。这些问题严重制约了异常检测在动态、复杂的元宇宙医疗环境中的可靠部署。

为此，一项发表在《Research》上的研究，提出了一种面向物联网赋能元宇宙医疗的可解释深度强化学习异常检测框架，旨在一次性攻克上述四大挑战，为构建可信的网络威胁智能（CTI）体系提供新思路。该研究创造性地将可解释人工智能（XAI）、深度强化学习（DRL）和高效的超参数优化技术融合在一个统一架构中。其核心在于利用一种改进的离轨近端策略优化（Off-policy PPO）算法作为智能体，这个智能体在探索环境（网络流量数据）时，能同时完成两件大事：一是借助SHapley Additive exPlanations（SHAP）值来评估并选择最具判别力的特征，使特征选择过程透明且高效；二是通过设计差异化的奖励函数，给予正确识别稀有攻击样本（少数类）更高的奖励，从而有效缓解类别不平衡带来的模型偏差。此外，研究采用贝叶斯优化超带宽（BOHB）算法来自动、高效地寻找模型的最佳超参数组合，加速训练并提升性能。这套组合拳使得模型不仅“能力强”（在多个公开数据集上取得了最先进的检测精度），而且“说得清”（决策依据可追溯），更能“适应快”（在动态环境中保持高效）。

为了验证这一框架，研究人员主要应用了几项关键技术方法。研究基于三个经典的网络安全数据集NSL-KDD、MAWI和CICIoT2023进行评估。其核心技术路径是：构建一个以多层感知机（MLP）为基础的智能体，在强化学习范式下，将特征选择（选择动作A_f）和最终分类（预测动作A_c）建模为序贯决策过程。智能体的奖励机制融合了SHAP值（用于衡量所选特征的重要性）和类别敏感的奖惩（用于平衡类别）。模型训练采用离轨PPO算法，利用经验回放池提高数据利用率和学习稳定性。模型的超参数（如学习率、折扣因子等）则通过BOHB算法进行自动化优化，以寻求最佳性能配置。

研究结果部分详细展示了该框架的优越性：

•
结构设计：研究首先通过一张清晰的架构图（图1）阐明了模型的整体工作流程。如图所示，输入数据经过MLP网络，同时输出预测类别和特征重要性分数。强化学习智能体根据当前状态（包含数据实例、MLP输出分数和已选特征集）决定是继续选择特征还是做出最终预测。如果选择特征，则根据该特征的SHAP值获得奖励；如果做出预测，则根据预测是否正确及样本所属类别（多数类或少数类）获得相应的正/负奖励。整个模型的超参数由BOHB模块优化。
•
特征选择与检测机制：研究将异常检测任务形式化为一个马尔可夫决策过程，并详细定义了状态、动作、奖励和状态转移函数。智能体通过与环境的交互，学习到一个既能挑选出高影响力特征，又能做出准确分类的策略。其奖励函数的设计是关键，它确保了模型在探索（选择特征）和利用（做出预测）之间取得平衡，并给予识别攻击样本（通常是少数类）更高的权重。图2进一步以流程图形式直观展示了这一奖励机制的逻辑判断过程。
•
训练算法：研究采用了离轨PPO算法对策略进行优化。相比于传统的在线PPO，离轨PPO能够利用历史策略收集的经验数据（存储在经验回放池中）进行学习，大大提高了样本利用效率和训练稳定性。该方法在约束策略更新幅度（通过裁剪概率比）的同时，允许从不同于当前策略的旧数据中学习，从而实现了更高效、更鲁棒的策略优化。
•
性能评估：在NSL-KDD、MAWI和CICIoT2023三个数据集上的实验结果表明，所提出的模型在准确率、F值、G均值、曲线下面积（AUC）等多个关键指标上均超越了文中对比的同期先进方法。具体结果分别为：在NSL-KDD上达到88.005%， 87.271%， 87.986%， 0.870；在MAWI上达到92.184%， 88.992%， 89.738%， 0.873；在CICIoT2023上达到89.368%， 88.312%， 89.039%， 0.836。这些数据强有力地证实了该框架在处理网络威胁场景时的有效性。

结论与意义：本研究成功构建并验证了一个针对物联网赋能元宇宙医疗环境的、可解释的深度强化学习异常检测框架。该工作的核心贡献在于首次将可解释特征选择（SHAP）、处理类别不平衡的奖励设计、离轨策略优化（PPO）以及高效超参数调优（BOHB）融为一体，形成了一个协同增强的统一解决方案。这不仅在技术上实现了对传统检测方法多个短板的突破，在NSL-KDD等基准数据集上取得了领先的性能，更在理念上强调了“可信”在医疗网络安全中的核心地位。模型决策的可解释性满足了医疗领域对透明度和合规性的严苛要求；自适应学习机制使其能够应对元宇宙中持续变化的数据流和新型威胁；高效优化则保障了其在资源受限的边缘环境中的部署可行性。因此，这项研究不仅仅是一项算法改进，更是为构建下一代高弹性、可信赖的元宇宙医疗基础设施提供了重要的理论方法和技术支撑，对推动安全、可靠的数字医疗发展具有深远意义。

联系信箱：

粤ICP备09063491号

热点排行