IT2模糊控制与混合RSA-BMO优化驱动的事件触发云自愈框架

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Engineering Science and Technology, an International Journal》：Risk-aware resilient cloud orchestration under correlated faults using adaptive dual-regime search with self-healing control

【字体：大中小】 时间：2026年04月03日 来源：Engineering Science and Technology, an International Journal 5.1

编辑推荐：

　　针对云数据中心动态负载、节点故障及不可靠遥测带来的不确定性，本文提出一种名为FHRMO的自愈优化框架。研究人员采用Reptile Search Algorithm (RSA) 进行全局探索，并引入受蝰蛇攻击动力学启发的Ballistic Motion Oper

针对云数据中心动态负载、节点故障及不可靠遥测带来的不确定性，本文提出一种名为FHRMO的自愈优化框架。研究人员采用Reptile Search Algorithm (RSA) 进行全局探索，并引入受蝰蛇攻击动力学启发的Ballistic Motion Operator (BMO) 进行局部开发，以平衡勘探与开采。为量化尾部风险，该研究在目标函数中集成了Conditional Value-at-Risk (CVaR) 机制。此外，研究人员设计了Interval Type-2 (IT2) 模糊控制器，根据负载偏差、故障风险及控制输入动态调整RSA与BMO的贡献权重，并引入迟滞边界抑制抖振。当Fault Risk (FR) 超过阈值时，系统触发Event-Triggered Self-Healing Policy，利用有限差分梯度引导的BMO步骤对退化虚拟机进行局部修复。实验基于Google Cluster Trace v3工作负载，在CloudSim Plus 8.0环境中验证了该框架的有效性。结果表明，与现有基线算法相比，FHRMO在Hypervolume指标上显著提升，SLA违约率降低，且在动态故障下的平均恢复时间缩短，展现了卓越的鲁棒性与收敛效率。

研究背景与意义

随着云计算规模的扩大，数据中心的资源调度面临负载波动、硬件故障频发及遥测数据噪声等多重不确定性挑战。传统的多目标优化算法往往难以兼顾全局探索与局部开发的平衡，且对极端故障场景的容错能力不足。现有的自愈机制多为被动触发，缺乏与优化过程的深度嵌入，导致服务等级协议（SLA）违约率居高不下。为此，研究人员提出了一种融合区间二型（IT2）模糊逻辑与混合RSA-BMO优化的自愈框架，旨在提升云环境在不确定条件下的鲁棒性和资源分配效率。该论文发表于《Engineering Science and Technology, an International Journal》。

关键技术方法

为实现上述目标，研究人员采用了以下核心技术路径：

1.
混合启发式优化架构：结合Reptile Search Algorithm (RSA) 的全局探索能力与Ballistic Motion Operator (BMO) 的局部开发能力，通过自适应融合策略实现两者的优势互补。
2.
风险感知建模：引入Conditional Value-at-Risk (CVaR) 指标，重点惩罚超出置信水平 α=0.95的尾部恢复延迟，从而规避高风险的资源分配方案。
3.
智能控制与决策：设计Interval Type-2 (IT2) 模糊推理系统，将负载偏差 LD、故障风险 FR和控制信号 uc作为输入，输出动态权重以调节探索与开发比例，并利用迟滞边界防止模式频繁切换。
4.
事件触发自愈机制：建立故障风险阈值 FRth=0.7，一旦监测值超标，立即隔离受损虚拟机，并通过有限差分法计算梯度方向，执行局部修复操作。
5.
实验验证平台：基于Google Cluster Trace v3真实数据集，在CloudSim Plus 8.0仿真环境中部署100至500台虚拟机，对比了MCSOFLB、MHPSO等五种主流基线算法。

研究结果

4.6. 自适应融合

研究人员定义了平衡区域 0.4≤uc≤0.6，在此区间内将RSA与BMO的输出进行加权组合。通过公式推导证明，该策略能有效整合两种算法的优势，提升解集的多样性与收敛性。

4.7. 事件触发自愈策略

研究设定了三级响应流程：首先识别故障虚拟机集合 Jdeg并冻结其任务；随后定义包含恢复时间 Trec(τ)和停机时间 DT(τ)的修复成本函数，利用步长 ζ=0.05的归一化下降步骤进行局部寻优；最后将修复后的解重新注入种群。命题1从理论上证明了该修复成本函数的局部充分递减性，确立了自愈层的稳定性基础。

基于迟滞的模态选择

为避免在模糊决策边界附近发生“颤振”现象，研究人员引入了对称迟滞裕度 ηh∈(0,0.1)。命题2证明，在输入变化受限的条件下，该机制能保证最小驻留时间，从而严格限制总模态切换次数，确保控制信号的平滑过渡。

5.2. CEC 2022基准测试验证

在20维的12个标准测试函数上，独立运行30次。结果显示，BMO算子在10个函数上显著优于RSA，在全部12个函数上均优于FPO，验证了新型局部搜索算子的高效性。

5.3. 云编排结果

在动态故障注入场景下，FHRMO表现出极快的恢复能力。在迭代至150和350步注入故障后，该框架约在20次迭代内即可重新稳定，而基线算法HybFPA和HEPGA则需要60至80次迭代。最终，FHRMO的聚合目标值达到 8.4±1.2，显著优于MCSOFLB的 14.1±2.3。

5.4. 消融实验

通过移除不同组件发现：RSA与BMO的混合架构比单一组件超体积提升15%—20%；IT2模糊控制比传统Type-1模糊控制性能提升6.3%；加入自愈机制后，超体积额外提升7.4%，且平均恢复时间缩短25%。这证实了各模块设计的必要性。

5.5. 压力场景评估

在突发负载、关联故障、高噪声等五类极端场景下，FHRMO均保持最低SLA违约率。特别是在关联故障场景（S3）中，FHRMO的违约率为 2.14%±0.71%，而HybFPA高达 8.92%±2.13%，相对降低约76.0%。

讨论与结论

讨论部分指出，FHRMO的核心优势在于将风险控制（CVaR）、智能决策（IT2 Fuzzy）与主动维护（Self-healing）深度融合。这种架构不仅解决了传统算法在噪声环境下控制平滑性差的问题，还通过局部修复机制大幅降低了故障恢复的时间成本。

结论表明，FHRMO框架通过IT2模糊逻辑实现了探索与开发的动态权衡，利用BMO增强了局部搜索精度，并借助事件触发的自愈策略显著提升了系统韧性。在多维度的性能测试中，该框架在超体积、间距、扩散度及SLA合规性上均超越了现有先进算法，为复杂云环境的资源管理提供了一种高效、可靠的解决方案。

联系信箱：

粤ICP备09063491号

热点排行